一般の人がAIに仕事をさせる方法:写真から図形や数式を抽出する(実践例)

一般人が AI に命令して Codex 上で数式認識、LaTeX 変換、グラフィッククリッピングを完了させる方法を実際の事例を通じて実証し、実際の運用における効果と問題点をまとめています。

前提条件

VS Code をインストールし、Codex プラグインをインストールします。 VS Code Codexの使い方についてはこちらの記事をご覧ください。
これらのツールを使用するためにプログラミングの経験は必要ありません。 VS Code はここでは主にファイルを整理するために使用されます。要件を提示するだけで、AI が自動的にプログラムを作成して実行します。
この記事では、完全な操作プロセスを記録します。その目的は、AI のより実用的な方法を模索し、より多くの一般の人々に利益をもたらすことです。

ミッションの目的

数式と回路図の両方を含む画像を準備します。

私たちは次の 3 つのことを達成したいと考えています。

  1. グラフをきれいな小さな画像に切り取ります。
  2. 数式を特定し、後で簡単に修正できるように LaTeX に変換します。
  3. グラフを対応する数式に関連付けます。

プロセス

  1. まず画像を特定し、Markdown ドキュメントを生成し、数式を LaTeX に変換します。

変換結果:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
# 1.png 识别结果

## 几何公式(LaTeX)

1. 三角形面积(边长与外接圆半径):

$$
S = \frac{abc}{4R}
$$

2. 三角形面积(内切圆半径与半周长):

$$
S = pr
$$

3. 圆台体积:

$$
V = \frac{\pi\left(r^2 + Rr + R^2\right)h}{3}
$$

4. 圆台侧面积:

$$
S = \pi a(R + r)
$$

5. 圆柱体积:

$$
V = \pi r^2 h
$$

6. 圆柱侧面积:

$$
S = 2\pi rh
$$

7. 球体积:

$$
V = \frac{4}{3}\pi R^3
$$

8. 球表面积:

$$
S = 4\pi R^2
$$

9. 正弦定理:

$$
\frac{a}{\sin A}=\frac{b}{\sin B}=\frac{c}{\sin C}=2R
$$

10. 余弦定理:

$$
a^2=b^2+c^2-2bc\cos A
$$

$$
b^2=a^2+c^2-2ac\cos B
$$

$$
c^2=a^2+b^2-2ab\cos C
$$

数式は認識され、AI が自動的に数式の名前を追加しました。これは非常にうまく機能します。ただし、小さな画像のトリミングはまだ完了していません。

  1. AI に画像をトリミングさせてみる
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
# 1.png 识别结果(图文并排,精修裁图)

<table>
  <tr>
    <td>![](crops/01_triangle_circum.png)</td>
    <td>

$$
S = \frac{abc}{4R}
$$

</td>
  </tr>
  <tr>
    <td>![](crops/02_triangle_incircle.png)</td>
    <td>

$$
S = pr
$$

</td>
  </tr>
  <tr>
    <td>![](crops/03_frustum.png)</td>
    <td>

$$
V = \frac{\pi\left(r^2 + Rr + R^2\right)h}{3}
$$

$$
S = \pi a(R + r)
$$

</td>
  </tr>
  <tr>
    <td>![](crops/04_cylinder.png)</td>
    <td>

$$
V = \pi r^2 h
$$

$$
S = 2\pi rh
$$

</td>
  </tr>
  <tr>
    <td>![](crops/05_sphere.png)</td>
    <td>

$$
V = \frac{4}{3}\pi R^3
$$

$$
S = 4\pi R^2
$$

</td>
  </tr>
  <tr>
    <td>![](crops/06_laws.png)</td>
    <td>

$$
\frac{a}{\sin A}=\frac{b}{\sin B}=\frac{c}{\sin C}=2R
$$

$$
a^2=b^2+c^2-2bc\cos A
$$

$$
b^2=a^2+c^2-2ac\cos B
$$

$$
c^2=a^2+b^2-2ab\cos C
$$

</td>
  </tr>
</table>

結果: 画像はトリミングされ、対応する位置に配置されていますが、干渉領域がまだあり、トリミングされたエッジは十分にきれいではありません。

  1. 「過剰トリミング」問題を修正します。まず完全なグラフィックスを保持してから、余分な部分を手動で削除します。
    このステップの効果はまだ安定していません。それがプロンプトの言葉の問題なのか、それともモデルの視覚的な位置の変動なのかはまだわかりません。

要約する

Codex を使用する場合と、chatgpt.com で直接話す場合では、エクスペリエンスが大きく異なります。
chatgpt.com では、AI が作業を完了するようにガイドするようなものです。 Codex では、AI が要件に従って作業を実行するようなものです。
リクエストを行うと、AIがプログラムを生成し、実行してタスクを完了します。 「AIに仕事を指示している」ということがより明確に感じられるでしょう。
プロセス全体で高度なプログラミングの基礎は必要なく、一般の人でも徐々に始めて結果を出すことができます。

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。