Cohere Rerank 3.5

Passez en revue les tests d'évaluation des performances du modèle cohere.rerank.3-5 (Cohere Rerank 3.5) hébergé sur une unité RERANK_COHERE d'un cluster d'IA dédié dans OCI Generative AI.

Un modèle de rerank prend une requête et une liste de textes en entrée et classe les textes en fonction de leur score de pertinence pour la requête, c'est-à-dire la façon dont chaque texte correspond à la requête.

Conseil

Pour en savoir plus sur le reclassement, nous vous recommandons de consulter les meilleures pratiques d'utilisation de Rerank | Cohere.
  • Consultez les détails du modèle et les sections suivantes :
    • Régions disponibles pour ce modèle.
    • Clusters d'IA dédiés pour héberger ce modèle.
  • Consultez les mesures.

Taille du document : 64 jetons

Ce scénario s'applique aux modèles de rerank. Dans ce scénario, tous les documents ont la même taille, qui est de 64 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de pièces Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,13 0,13 7,64
2 0,11 0,11 8,96
4 0,11 0,11 9,12
8 0,11 0,11 9,06
24 0,12 0,12 8,33
48 0,14 0,14 7,19
96 0,17 0,17 5,86

Taille du document : 128 jetons

Ce scénario s'applique aux modèles de rerank. Dans ce scénario, tous les documents ont la même taille, qui est de 128 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de pièces Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,11 0,11 9,15
2 0,11 0,11 9,12
4 0,11 0,11 9
8 0,11 0,11 8,81
24 0,13 0,13 7,71
48 0,16 0,16 6,34
96 0,2 0,2 4,81

Taille du document : 256 jetons

Ce scénario s'applique aux modèles de rerank. Dans ce scénario, tous les documents ont la même taille, soit 256 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de pièces Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,11 0,11 9,1
2 0,11 0,11 9,03
4 0,11 0,11 8,73
8 0,12 0,12 8,14
24 0,15 0,15 6,47
48 0,2 0,2 4,91
96 0,28 0,28 3,52

Taille du document : 512 jetons

Ce scénario s'applique aux modèles de rerank. Dans ce scénario, tous les documents ont la même taille, qui est de 512 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de pièces Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,11 0,11 8,94
2 0,11 0,11 8,61
4 0,12 0,12 7,91
8 0,14 0,14 6,85
24 0,2 0,2 4,87
48 0,3 0,3 3,22
96 0,54 0,54 1,83

Taille du document : 1024 jetons

Ce scénario s'applique aux modèles de rerank. Dans ce scénario, tous les documents ont la même taille, qui est de 1 024 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de pièces Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,12 0,12 8,11
2 0,13 0,13 7,22
4 0,15 0,15 6,24
8 0,19 0,19 4,99
24 0,45 0,45 2,2
48 0,73 0,73 1,34
96 1,38 1,38 0,72

Taille du document : 2048 Tokens

Ce scénario s'applique aux modèles de rerank. Dans ce scénario, tous les documents ont la même taille, soit 2 048 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de pièces Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,15 0,15 6,13
2 0,18 0,18 5,14
4 0,25 0,25 3,84
8 0,38 0,38 2,52
24 1,05 1,05 0,94
48 2,01 2,01 0,49
96 3,77 3,77 0,26

Taille du document : 4096 Tokens

Ce scénario s'applique aux modèles de rerank. Dans ce scénario, tous les documents ont la même taille, soit 4 096 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de pièces Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 7,35 7,35 4,65
2 7,35 7,35 3,71
4 7,35 7,35 2,43
8 7,35 7,35 1,24
24 7,35 7,35 0,49
48 7,35 7,35 0,26
96 7,35 7,35 0,14