Cuando las personas comienzan a construir sistemas RAG, búsqueda semántica o recuperación de bases de conocimiento, a menudo se quedan atascadas en la misma pregunta: hay tantos modelos de embedding, ¿así que cuál debe elegir?
Las opciones comunes se pueden dividir aproximadamente en dos grupos. Un grupo son los embeddings de texto de propósito general que cubren tareas en chino, inglés y multilingües. El otro grupo está mejor adaptado a escenarios en chino, especialmente la recuperación en chino, el QA en chino y las bases de conocimiento en chino.
Si quieres la versión corta primero, esta es una forma práctica de verlo:
- Si quieres el camino más fácil y prefieres usar una API directamente:
text-embedding-3-small o text-embedding-3-large
- Si quieres recuperación en chino y prefieres modelos de código abierto que puedes autoalojar:
bge-base-zh-v1.5, bge-m3, gte-large-zh
- Si necesitas soporte multilingüe:
multilingual-e5-base, multilingual-e5-large, jina-embeddings-v3
- Si quieres mantener bajos los costos en escenarios chinos:
bge-small-zh-v1.5, gte-base-zh
1. Primero, Míralos por Categoría
1. Serie OpenAI
text-embedding-3-small
text-embedding-3-large
Las principales fortalezas de estos modelos son la simplicidad y la estabilidad. Son adecuados si quieres llamar a una API directamente para recuperación, RAG, clasificación y coincidencia de similitud. Su ventaja no es que dominen una tabla de clasificación china específica, sino que la experiencia general es completa: bajo costo de integración, calidad estable y baja sobrecarga de ingeniería.
Si tu equipo no quiere alojar modelos ni mantener servicios de inferencia, OpenAI suele ser la opción que ahorra más tiempo.
2. Serie BGE
BAAI/bge-small-zh-v1.5
BAAI/bge-base-zh-v1.5
bge-m3
BGE es una de las familias más comunes utilizadas en recuperación china. bge-small-zh-v1.5 y bge-base-zh-v1.5 se inclinan más hacia tareas monolingües en chino, lo que los hace adecuados para la búsqueda semántica en chino, la recuperación de bases de conocimiento y la coincidencia de preguntas frecuentes (FAQ). bge-m3 es más de propósito general y puede cubrir escenarios de recuperación multilingües, de multi-granularidad y más complejos.
Si la mayor parte de tus datos es texto en chino, BGE es a menudo una de las familias más fáciles de incluir en la lista corta.
3. Serie E5
intfloat/multilingual-e5-base
multilingual-e5-large
La fortaleza de la familia E5 es una capacidad multilingüe más equilibrada. Funciona bien para datos mixtos chinos-inglés, recuperación translingüística y bibliotecas de contenido internacionalizado. No se enfoca solo en chino.
4. Serie E5
5. Serie E5
6. Serie E5
7. Serie E5
8. Serie E5
9. Serie E5
10. Serie E5
11. Serie E5
12. Serie E5
13. Serie E5
14. Serie E5
15. Serie E5
16. Serie E5
17. Serie E5
18. Serie E5
19. Serie E5
20. Serie E5
21. Serie E5
22. Serie E5
23. Serie E5
24. Serie E5
25. Serie E5
26. Serie E5
27. Serie E5
28. Serie E5
29. Serie E5
30. Serie E5
31. Serie E5
32. Serie E5
33. Serie E5
34. Serie E5
35. Serie E5
36. Serie E5
37. Serie E5
38. Serie E5
39. Serie E5
40. Serie E5
41. Serie E5
42. Serie E5
43. Serie E5
44. Serie E5
45. Serie E5
46. Serie E5
47. Serie E5
48. Serie E5
49. Serie E5
50. Serie E5
51. Serie E5
52. Serie E5
53. Serie E5
54. Serie E5
55. Serie E5
56. Serie E5
57. Serie E5
58. Serie E5
59. Serie E5
60. Serie E5
61. Serie E5
62. Serie E5
63. Serie E5
64. Serie E5
65. Serie E5
66. Serie E5
67. Serie E5
68. Serie E5
69. Serie E5
70. Serie E5
71. Serie E5
72. Serie E5
73. Serie E5
74. Serie E5
75. Serie E5
76. Serie E5
77. Serie E5
78. Serie E5
79. Serie E5
80. Serie E5
81. Serie E5
82. Serie E5
83. Serie E5
84. Serie E5
85. Serie E5
86. Serie E5
87. Serie E5
88. Serie E5
89. Serie E5
90. Serie E5
91. Serie E5
92. Serie E5
93. Serie E5
94. Serie E5
95. Serie E5
96. Serie E5
97. Serie E5
98. Serie E5
99. Serie E5
100. Serie E5
101. Serie E5
102. Serie E5
103. Serie E5
104. Serie E5
105. Serie E5
106. Serie E5
107. Serie E5
108. Serie E5
109. Serie E5
110. Serie E5
111. Serie E5
112. Serie E5
113. Serie E5
114. Serie E5
115. Serie E5
116. Serie E5
117. Serie E5
118. Serie E5
119. Serie E5
120. Serie E5
121. Serie E5
122. Serie E5
123. Serie E5
124. Serie E5
125. Serie E5
126. Serie E5
127. Serie E5
128. Serie E5
129. Serie E5
130. Serie E5
131. Serie E5
132. Serie E5
133. Serie E5
134. Serie E5
135. Serie E5
136. Serie E5
137. Serie E5
138. Serie E5
139. Serie E5
140. Serie E5
141. Serie E5
142. Serie E5
143. Serie E5
144. Serie E5
145. Serie E5
146. Serie E5
147. Serie E5
148. Serie E5
149. Serie E5
150. Serie E5
151. Serie E5
152. Serie E5
153. Serie E5
154. Serie E5
155. Serie E5
156. Serie E5
157. Serie E5
158. Serie E5
159. Serie E5
160. Serie E5
161. Serie E5
162. Serie E5
163. Serie E5
164. Serie E5
165. Serie E5
166. Serie E5
167. Serie E5
168. Serie E5
169. Serie E5
170. Serie E5
171. Serie E5
172. Serie E5
173. Serie E5
174. Serie E5
175. Serie E5
176. Serie E5
177. Serie E5
178. Serie E5
179. Serie E5
180. Serie E5
181. Serie E5
182. Serie E5
183. Serie E5
184. Serie E5
185. Serie E5
186. Serie E5
187. Serie E5
188. Serie E5
189. Serie E5
190. Serie E5
191. Serie E5
192. Serie E5
193. Serie E5
194. Serie E5
195. Serie E5
196. Serie E5
197. Serie E5
198. Serie E5
199. Serie E5
200. Serie E5
201. Serie E5
202. Serie E5
203. Serie E5
204. Serie E5
205. Serie E5
206. Serie E5
207. Serie E5
208. Serie E5
209. Serie E5
210. Serie E5
211. Serie E5
212. Serie E5
213. Serie E5
214. Serie E5
215. Serie E5
216. Serie E5
217. Serie E5
218. Serie E5
219. Serie E5
220. Serie E5
221. Serie E5
222. Serie E5
223. Serie E5
224. Serie E5
225. Serie E5
226. Serie E5
227. Serie E5
228. Serie E5
229. Serie E5
230. Serie E5
231. Serie E5
232. Serie E5
233. Serie E5
234. Serie E5
235. Serie E5
236. Serie E5
237. Serie E5
238. Serie E5
239. Serie E5
240. Serie E5
241. Serie E5
242. Serie E5
243. Serie E5
244. Serie E5
245. Serie E5
246. Serie E5
247. Serie E5
248. Serie E5
249. Serie E5
250. Serie E5