Skip to content

tatisocc/tecy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

                                                 _                
                                                | |_ ___  ___ _   _ 
                                                | __/ _ \/ __| | | |
                                                | ||  __/ (__| |_| |
                                                 \__\___|\___|\__, |
                                                              |___/  v.2
                                                                                  
                                                B R U T U S  T E X T 
   

tecy es un motor de línea de comandos (CLI) diseñado para la extracción, limpieza, filtrado y organización de léxico documental cumpliendo estrictamente las reglas ortográficas del idioma español.

▸ tecy funciona como un pipeline que transforma documentos complejos en léxico limpio, ordenado y útil.

* Unix-Friendly:              Funciona con texto plano y comandos sencillos.
* Ordenamiento Estricto:      Clasificación alfabética nativa del español (trata acentos, diéresis y la 'ñ' correctamente).
* Independencia de Ubicación: Puede ejecutarse desde cualquier directorio, manteniendo centralizado su entorno de trabajo.

▸ tecy permite dos modos principales de operación:

1. Salida Estándar (Automática): Procesa un documento y exporta los resultados a las carpetas configuradas (`alls/` o `letters/`).

* Exportar todo el léxico:

`tecy all documento.txt`

* Exportar filtros específicos (ej: palabras que empiezan por a, b, c):

`tecy -abc documento.txt` o `tecy -a -b -c documento.txt`

2. Modo Inyección (Base de Datos): Fusiona el léxico extraído de un documento con un archivo existente, manteniendo el orden alfabético y evitando duplicados.

* Inyectar todo el léxico en una base de datos:

`tecy all documento.txt mi_diccionario.txt`

* Inyectar solo filtros específicos:

`tecy -ab documento.txt mi_diccionario.txt`

▸ Módulos Internos

* `extractor.py`:   Soporta múltiples formatos (PDF, TXT, CSV, HTML, etc.).
* `cleaner.py`:     Normalización Unicode, eliminación de números, símbolos y URLs.
* `lexer.py`:       Tokenización inteligente.
* `filters.py`:     Lógica de filtrado por caracteres iniciales.
* `exporter.py`:    Gestión de archivos de salida.

▸ tecy está diseñado para ser auditable. Cada ejecución genera archivos temporales en `.tecy/tmp/` que permiten verificar la integridad del proceso de limpieza antes de la exportación final.

About

brutus text for databases; divorced from addcy.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors