Cómo los no programadores pueden dirigir la IA para que haga el trabajo: extraer diagramas y fórmulas matemáticas de una imagen (ejemplo práctico)

Un estudio de caso práctico que muestra cómo los no programadores pueden dirigir la IA en Codex para reconocer fórmulas, convertirlas a LaTeX y alinear diagramas recortados con fórmulas, incluidos resultados prácticos y limitaciones.

Requisitos previos

Instale VS Code y la extensión Codex. Puede consultar [este artículo] (../01/index.md).
El uso de estas herramientas no requiere experiencia en programación. En este flujo de trabajo, VS Code sirve principalmente para organizar archivos; usted describe su objetivo y la IA escribe y ejecuta el código por usted.
Esta publicación registra el proceso completo para generar ideas y ayudar a más personas a descubrir formas prácticas de utilizar la IA.

Objetivo

Prepare una imagen que contenga fórmulas matemáticas y diagramas ilustrativos:

Queremos lograr tres cosas:

  1. Divida los diagramas en imágenes limpias y separadas.
  2. Reconozca fórmulas y conviértalas a LaTeX para editarlas más fácilmente.
  3. Vincula cada diagrama a su fórmula correspondiente.

Proceso

  1. Primero, reconozca la imagen, genere un documento Markdown y convierta fórmulas a LaTeX.

Resultado de la conversión:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
# 1.png Recognition Result

## Geometry Formulas (LaTeX)

1. Triangle area (side lengths and circumradius):

$$
S = \frac{abc}{4R}
$$

2. Triangle area (inradius and semiperimeter):

$$
S = pr
$$

3. Frustum volume:

$$
V = \frac{\pi\left(r^2 + Rr + R^2\right)h}{3}
$$

4. Frustum lateral surface area:

$$
S = \pi a(R + r)
$$

5. Cylinder volume:

$$
V = \pi r^2 h
$$

6. Cylinder lateral surface area:

$$
S = 2\pi rh
$$

7. Sphere volume:

$$
V = \frac{4}{3}\pi R^3
$$

8. Sphere surface area:

$$
S = 4\pi R^2
$$

9. Law of sines:

$$
\frac{a}{\sin A}=\frac{b}{\sin B}=\frac{c}{\sin C}=2R
$$

10. Law of cosines:

$$
a^2=b^2+c^2-2bc\cos A
$$

$$
b^2=a^2+c^2-2ac\cos B
$$

$$
c^2=a^2+b^2-2ab\cos C
$$

Se reconocieron todas las fórmulas y la IA incluso agregó nombres de fórmulas automáticamente, lo cual es genial. Sin embargo, los cultivos del diagrama pequeño aún no se generaron.

  1. Intente pedirle a AI que recorte la imagen.
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
# 1.png Recognition Result (side-by-side layout with refined cropping)

<table>
  <tr>
    <td>![](crops/01_triangle_circum.png)</td>
    <td>

$$
S = \frac{abc}{4R}
$$

</td>
  </tr>
  <tr>
    <td>![](crops/02_triangle_incircle.png)</td>
    <td>

$$
S = pr
$$

</td>
  </tr>
  <tr>
    <td>![](crops/03_frustum.png)</td>
    <td>

$$
V = \frac{\pi\left(r^2 + Rr + R^2\right)h}{3}
$$

$$
S = \pi a(R + r)
$$

</td>
  </tr>
  <tr>
    <td>![](crops/04_cylinder.png)</td>
    <td>

$$
V = \pi r^2 h
$$

$$
S = 2\pi rh
$$

</td>
  </tr>
  <tr>
    <td>![](crops/05_sphere.png)</td>
    <td>

$$
V = \frac{4}{3}\pi R^3
$$

$$
S = 4\pi R^2
$$

</td>
  </tr>
  <tr>
    <td>![](crops/06_laws.png)</td>
    <td>

$$
\frac{a}{\sin A}=\frac{b}{\sin B}=\frac{c}{\sin C}=2R
$$

$$
a^2=b^2+c^2-2bc\cos A
$$

$$
b^2=a^2+c^2-2ac\cos B
$$

$$
c^2=a^2+b^2-2ab\cos C
$$

</td>
  </tr>
</table>

Resultado: Los diagramas fueron recortados y colocados en posiciones coincidentes, pero los cultivos aún incluyen ruido de áreas cercanas.

  1. Corrija el recorte excesivo: mantenga primero el área objetivo completa y luego elimine manualmente las partes adicionales
    El resultado aún es inconsistente en este paso. Aún no está claro si el problema proviene de las indicaciones o de la variabilidad del modelo en la localización visual.

Resumen

Usar Codex es diferente a chatear directamente en chatgpt.com.
En chatgpt.com, a menudo parece que la IA guía su trabajo; en Codex, se siente más como si la IA estuviera ejecutando sus instrucciones.
Después de describir sus requisitos, la IA puede generar código, ejecutarlo y completar la tarea. La sensación es que estás dirigiendo a la IA para que haga el trabajo.
Este proceso no requiere grandes habilidades de programación y los no programadores aún pueden obtener resultados reales paso a paso.

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy