GitHub - tatisocc/tecy: brutus text for databases; divorced from addcy.

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
.tecy		.tecy
README		README
install.sh		install.sh
requirements.txt		requirements.txt
test.txt		test.txt

Repository files navigation

                                                 _                
                                                | |_ ___  ___ _   _ 
                                                | __/ _ \/ __| | | |
                                                | ||  __/ (__| |_| |
                                                 \__\___|\___|\__, |
                                                              |___/  v.2
                                                                                  
                                                B R U T U S  T E X T 
   

tecy es un motor de línea de comandos (CLI) diseñado para la extracción, limpieza, filtrado y organización de léxico documental cumpliendo estrictamente las reglas ortográficas del idioma español.

▸ tecy funciona como un pipeline que transforma documentos complejos en léxico limpio, ordenado y útil.

* Unix-Friendly:              Funciona con texto plano y comandos sencillos.
* Ordenamiento Estricto:      Clasificación alfabética nativa del español (trata acentos, diéresis y la 'ñ' correctamente).
* Independencia de Ubicación: Puede ejecutarse desde cualquier directorio, manteniendo centralizado su entorno de trabajo.

▸ tecy permite dos modos principales de operación:

1. Salida Estándar (Automática): Procesa un documento y exporta los resultados a las carpetas configuradas (`alls/` o `letters/`).

* Exportar todo el léxico:

`tecy all documento.txt`

* Exportar filtros específicos (ej: palabras que empiezan por a, b, c):

`tecy -abc documento.txt` o `tecy -a -b -c documento.txt`

2. Modo Inyección (Base de Datos): Fusiona el léxico extraído de un documento con un archivo existente, manteniendo el orden alfabético y evitando duplicados.

* Inyectar todo el léxico en una base de datos:

`tecy all documento.txt mi_diccionario.txt`

* Inyectar solo filtros específicos:

`tecy -ab documento.txt mi_diccionario.txt`

▸ Módulos Internos

* `extractor.py`:   Soporta múltiples formatos (PDF, TXT, CSV, HTML, etc.).
* `cleaner.py`:     Normalización Unicode, eliminación de números, símbolos y URLs.
* `lexer.py`:       Tokenización inteligente.
* `filters.py`:     Lógica de filtrado por caracteres iniciales.
* `exporter.py`:    Gestión de archivos de salida.

▸ tecy está diseñado para ser auditable. Cada ejecución genera archivos temporales en `.tecy/tmp/` que permiten verificar la integridad del proceso de limpieza antes de la exportación final.