Update README.md
Browse files
README.md
CHANGED
|
@@ -1261,13 +1261,15 @@ tags:
|
|
| 1261 |
---
|
| 1262 |
## Yuan-embedding-1.0
|
| 1263 |
|
| 1264 |
-
Yuan-embedding-1.0
|
|
|
|
|
|
|
| 1265 |
|
| 1266 |
-
- 在Hard negative sampling中,使用Rerank模型(bge-reranker-large [
|
| 1267 |
|
| 1268 |
-
-
|
| 1269 |
|
| 1270 |
-
-
|
| 1271 |
|
| 1272 |
|
| 1273 |
## Usage
|
|
@@ -1293,6 +1295,6 @@ print(similarities)
|
|
| 1293 |
|
| 1294 |
## Reference
|
| 1295 |
|
| 1296 |
-
1. https://huggingface.co/
|
| 1297 |
-
2. https://huggingface.co/
|
| 1298 |
-
3. https://
|
|
|
|
| 1261 |
---
|
| 1262 |
## Yuan-embedding-1.0
|
| 1263 |
|
| 1264 |
+
Yuan-embedding-1.0 是专门为中文文本检索任务设计的嵌入模型。
|
| 1265 |
+
在xiaobu模型结构(bert-large结构)基础上, 采用全新的数据集构建、生成与清洗方法, 结合二阶段微调实现Retrieval任务的精度领先(Hugging Face C-MTEB榜单 [1])。
|
| 1266 |
+
其中, 正负例样本采用源2.0-M32(Yuan2.0-M32 [2] ) 大模型进行生成。主要工作如下:
|
| 1267 |
|
| 1268 |
+
- 在Hard negative sampling中,使用Rerank模型(bge-reranker-large [3])进行数据排序筛选
|
| 1269 |
|
| 1270 |
+
- 通过(Yuan2.0-M32大模型)迭代生成新query、corpus
|
| 1271 |
|
| 1272 |
+
- 采用MRL方法进行模型微调训练
|
| 1273 |
|
| 1274 |
|
| 1275 |
## Usage
|
|
|
|
| 1295 |
|
| 1296 |
## Reference
|
| 1297 |
|
| 1298 |
+
1. https://huggingface.co/spaces/mteb/leaderboard
|
| 1299 |
+
2. https://huggingface.co/IEITYuan/Yuan2-M32
|
| 1300 |
+
3. https://huggingface.co/BAAI/bge-reranker-large
|