Refactorizando la generación del checksum #14

fitorec · 2022-04-28T07:13:04Z

Hola buenas,

Hice pequeñas modificaciones al código, como:

Remplazar el diccionario de un arreglo a un string.
El antiguo $j originalmente era la longitud mas uno, pero... si extraemos la longitud antes de realizar el pop ya no es necesario sumar la unidad.
Finalmente vi que la diferencia del once menos el modulo(11), solamente se utiliza para caso en donde el resultado de la operación cuando el modulo es distinto de cero y uno.

Respecto a la implementación del algoritmo vi esta documentación:

https://www.studocu.com/es-mx/document/universidad-del-valle-de-mexico/administracion/algoritmo-para-generar-el-rfc-con-homoclave-para-personas-fisicas-y-morales/12002840

Pero... me llama la atención que en el anexo I, veo diferencias en la tabla de caracteres(diccionario), no sé si tengas mayor información que pueda revisar y aclarar mis dudas.

Gracias.

eclipxe13 · 2022-04-28T14:45:45Z

Hola, los algoritmos son similares y producen el mismo resultado:

Remplazar el diccionario de un arreglo a un string.

No te lo recomiendo, en un arreglo el acceso a los caracteres es muy rápido, la función strpos es lenta. Probablemente entra como "micro-optimización", pero al usarla en una gran cantidad de RFC (como la LRFC) es una gran diferencia.

El antiguo $j originalmente era la longitud mas uno, pero... si extraemos la longitud antes de realizar el pop ya no es necesario sumar la unidad.

Sí, también se puede hacer de esta forma.

Finalmente vi que la diferencia del once menos el modulo(11), solamente se utiliza para caso en donde el resultado de la operación cuando el modulo es distinto de cero y uno.

Sí, también se puede hacer de esta forma.

Pero... me llama la atención que en el anexo I, veo diferencias en la tabla de caracteres(diccionario), no sé si tengas mayor información que pueda revisar y aclarar mis dudas.

El caracter Ñ es multi-byte, por ejemplo strlen('Ñ') === 2, por eso es mejor trabajar con un caracter que no sea multi-byte y es sustituido por #.

Con respecto al PR, ve la documentación de CONTRIBUTING.md:

strpos puede devolver false.

tools/psalm --no-progress

ERROR: PossiblyFalseOperand - src/CheckSum.php:21:21 - Left operand cannot be falsable, got false|int|positive-int (see https://psalm.dev/162)
            $sum += $posChar * $factor;

Hay algunos errores de code style, se puede ejecutar para corregir:

composer update
phive update
composer dev:build

Por último, y lo más importante:
La forma de obtener el checksum en tu PR es igual (equivalente) a la forma que está escrita, ligeramente menos eficiente dado el uso de strpos. ¿Cuál sería la razón para modificar el algoritmo actual?

Se regreso el diccionario el cual se genera dinamicamente una unica vez Se revisó detalles del phpcs

…7.3)

fitorec · 2022-04-28T17:31:15Z

Hola, los algoritmos son similares y producen el mismo resultado:

Remplazar el diccionario de un arreglo a un string.

No te lo recomiendo, en un arreglo el acceso a los caracteres es muy rápido, la función strpos es lenta. Probablemente entra como "micro-optimización", pero al usarla en una gran cantidad de RFC (como la LRFC) es una gran diferencia.

Buenas acabé de hacer una mezcla de ambas complementaciones dejando la generación del arreglo del diccionario dentro del constructor, así una vez creado el objeto se podrá calcular las veces que se desee el checksum accediendo al mismo diccionario.

Pero... me llama la atención que en el anexo I, veo diferencias en la tabla de caracteres(diccionario), no sé si tengas mayor información que pueda revisar y aclarar mis dudas.

El caracter Ñ es multi-byte, por ejemplo strlen('Ñ') === 2, por eso es mejor trabajar con un caracter que no sea multi-byte y es sustituido por #.

Me queda claro.

Con respecto al PR, ve la documentación de CONTRIBUTING.md:

Sí, gracias lo acabé de revisar.

Hay algunos errores de code style, se puede ejecutar para corregir:
....

Revisado.

Por último, y lo más importante: La forma de obtener el checksum en tu PR es igual (equivalente) a la forma que está escrita, ligeramente menos eficiente dado el uso de strpos. ¿Cuál sería la razón para modificar el algoritmo actual?

En primera te agradezco el tiempo prestado, la verdad es que de un tiempo acá estoy trabajando para empresas financieras mexicanas, mi trabajo es en la web, sin embargo los backends que estoy haciendo lo desarrollo en python por eso me es importante conocer lo que transiberianas hacen estos algoritmos.

En este sentido estoy revisando distintas complementaciones y documentaciones sobre determinados algoritmos que ayuden a diferentes tramites en México y en algunos casos estoy haciendo algunas implementaciones, por ejemplo:

https://gist.github.com/fitorec/2c221e3314e6f3e7f87216c8d4762d0c

Sin embargo del checksum generado para los RFCs encontré poca información (salvo el documento que te compartí).

Es por este motivo que realicé un fork sobre este proyecto con la finalidad de aprender mas hacer de dicho algoritmo, pero... como no me gusta pedir sin dar prefiero contribuir para que el karma sea devuelto 😄.

Por lo cual creo que mis contribuciones van enfocadas en hacer mas entendible dicho algoritmo hacia otras personas que en su momento deseen contribuir o simplemente entender como funciona este algoritmo del checksum.

eclipxe13 · 2022-04-28T18:18:09Z

Sin embargo del checksum generado para los RFCs encontré poca información (salvo el documento que te compartí).

Ok, probablemente te gustaría saber que el checksum no se cumple ni se sigue en la práctica (sí, así es el SAT).
Está el caso del RFC RT0840921RE4 de la cadena de restaurantes TOKS, donde termina en 4 pero el debería ser A, incluso, alguna vez sí fue RT0840921REA.

Por lo cual creo que mis contribuciones van enfocadas en hacer mas entendible dicho algoritmo hacia otras personas que en su momento deseen contribuir o simplemente entender como funciona este algoritmo del checksum.

Entiendo, y gracias por tu esfuerzo.
En PHP es mejor tener el arreglo como una constante que en una variable estática.
Pero, siguiendo tu implementación, el código para llenar la variable estática debería ser algo así:

    /** @var int[] **/
    private static $dictionary = [];

    public function __construct()
    {
        if ([] === self::$dictionary) {
            self::$dictionary = array_flip(str_split('0123456789ABCDEFGHIJKLMN&OPQRSTUVWXYZ #'));
        }
    }

Voy a dejar la lógica del algoritmo como está actualmente, con unas pequeñas modificaciones:

En comentarios la liga que pusiste (que también la conocía pero vale la pena documentarla).
Mejorando el uso de$length.
Mejorando el test para que compruebe estos casos personas físicas y morales, que teminen en 0, 9 o [1-9], que contengan multibyte e inválidos (cadenas vacías, cadenas que usan caracteres no válidos)...

Reitero, muchas gracias por tu trabajo.

Refactorizando la generación del checksum

3c9d1a5

fitorec added 4 commits April 28, 2022 10:59

Revisando comentarios del pull request

3e47295

Se regreso el diccionario el cual se genera dinamicamente una unica vez Se revisó detalles del phpcs

Revisando los comentarios de phpcs

53fba3b

Quitando la declaración del tipo array en el diccionario (pasando php…

9a26193

…7.3)

Quitando la declaración del tipo array en el diccionario (pasando php…

d410c4a

…7.3)

eclipxe13 closed this Apr 28, 2022

eclipxe13 mentioned this pull request Apr 29, 2022

Version 1.1.2 #15

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Refactorizando la generación del checksum #14

Refactorizando la generación del checksum #14

fitorec commented Apr 28, 2022

eclipxe13 commented Apr 28, 2022

fitorec commented Apr 28, 2022

eclipxe13 commented Apr 28, 2022

Refactorizando la generación del checksum #14

Refactorizando la generación del checksum #14

Conversation

fitorec commented Apr 28, 2022

eclipxe13 commented Apr 28, 2022

fitorec commented Apr 28, 2022

eclipxe13 commented Apr 28, 2022