Estructura del archivo DOCX
Un archivo .docx es esencialmente un paquete ZIP que contiene documentos XML y recursos multimedia:
[Content_Types].xmldefine los tipos de contenido- Los archivos
.relsdefinen relaciones word/document.xmlalmacena el contenido del documento principalword/styles.xmlalmacena estilosword/numbering.xmlalmacena definiciones de lista
Si cambia el nombre de .docx a .zip, puede extraer e inspeccionar la estructura del directorio.
Cómo comprimir DOCX
Los archivos DOCX grandes suelen estar dominados por archivos bajo “word/media”, por lo que la compresión debe centrarse allí.
Por el momento, la compatibilidad DOCX para formatos de imagen más nuevos puede estar limitada en algunos flujos de trabajo, por lo que los formatos comunes como JPG/PNG suelen ser más seguros.
1. Descomprimir
Cambie el nombre de la extensión a ZIP y extráigala, o use Python:
|
|
2. Comprimir JPG/PNG
Puede comprimir imágenes directamente. Caesium proporciona buenos resultados de compresión a través de CLI.
|
|
En la práctica:
calidad=50a menudo proporciona una fuerte reducción de tamaño con una calidad aceptable.- Incluso “calidad = 80” puede reducir notablemente el tamaño.
3. Manejar archivos EMF
Los archivos EMF suelen ser grandes. Convertir EMF a JPG/PNG puede reducir el tamaño significativamente. Puede usar ImageMagick para la conversión y luego actualizar word/_rels/document.xml.rels si la extensión/ruta del archivo cambia.
4. Reempacar
Vuelva a comprimir la carpeta extraída usando ZIP_DEFLATED.
|
|
5. Ejemplo de script de un extremo a otro
|
|
Resumen
Con este enfoque y “calidad = 50”, los archivos DOCX a menudo se pueden reducir a aproximadamente un tercio del tamaño original.