tatisocc/tecy
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|
Repository files navigation
_
| |_ ___ ___ _ _
| __/ _ \/ __| | | |
| || __/ (__| |_| |
\__\___|\___|\__, |
|___/ v.2
B R U T U S T E X T
tecy es un motor de línea de comandos (CLI) diseñado para la extracción, limpieza, filtrado y organización de léxico documental cumpliendo estrictamente las reglas ortográficas del idioma español.
▸ tecy funciona como un pipeline que transforma documentos complejos en léxico limpio, ordenado y útil.
* Unix-Friendly: Funciona con texto plano y comandos sencillos.
* Ordenamiento Estricto: Clasificación alfabética nativa del español (trata acentos, diéresis y la 'ñ' correctamente).
* Independencia de Ubicación: Puede ejecutarse desde cualquier directorio, manteniendo centralizado su entorno de trabajo.
▸ tecy permite dos modos principales de operación:
1. Salida Estándar (Automática): Procesa un documento y exporta los resultados a las carpetas configuradas (`alls/` o `letters/`).
* Exportar todo el léxico:
`tecy all documento.txt`
* Exportar filtros específicos (ej: palabras que empiezan por a, b, c):
`tecy -abc documento.txt` o `tecy -a -b -c documento.txt`
2. Modo Inyección (Base de Datos): Fusiona el léxico extraído de un documento con un archivo existente, manteniendo el orden alfabético y evitando duplicados.
* Inyectar todo el léxico en una base de datos:
`tecy all documento.txt mi_diccionario.txt`
* Inyectar solo filtros específicos:
`tecy -ab documento.txt mi_diccionario.txt`
▸ Módulos Internos
* `extractor.py`: Soporta múltiples formatos (PDF, TXT, CSV, HTML, etc.).
* `cleaner.py`: Normalización Unicode, eliminación de números, símbolos y URLs.
* `lexer.py`: Tokenización inteligente.
* `filters.py`: Lógica de filtrado por caracteres iniciales.
* `exporter.py`: Gestión de archivos de salida.
▸ tecy está diseñado para ser auditable. Cada ejecución genera archivos temporales en `.tecy/tmp/` que permiten verificar la integridad del proceso de limpieza antes de la exportación final.