Cohere Rerank 3.5
Prüfen Sie Performancebenchmarks für das cohere.rerank.3-5
(Cohere Rerank 3.5)-Modell, das auf einer RERANK_COHERE-Einheit eines dedizierten KI-Clusters in OCI Generative AI gehostet wird.
Ein Ranglistenmodell übernimmt eine Abfrage und eine Liste von Texten als Eingabe und ordnet die Texte basierend auf ihrem Relevanzscore zur Abfrage ein. Das heißt, wie gut jeder Text mit der Abfrage übereinstimmt.
Um mehr über das Rangieren zu erfahren, empfehlen wir Ihnen, Best Practices für die Verwendung von Rerank | Cohere zu lesen.
Dokumentgröße: 64 Token
Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 64 Token umfasst, und die Benchmarks sind für die Umlagerung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.
Anzahl Dokumente | Time to First Token (TTFT)(Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) |
---|---|---|---|
1 | 0,13 | 0,13 | 7,64 |
2 | 0,11 | 0,11 | 8,96 |
4 | 0,11 | 0,11 | 9,12 |
8 | 0,11 | 0,11 | 9,06 |
24 | 0,12 | 0,12 | 8,33 |
48 | 0,14 | 0,14 | 7,19 |
96 | 0,17 | 0,17 | 5,86 |
Dokumentgröße: 128 Token
Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 128 Token umfasst, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.
Anzahl Dokumente | Time to First Token (TTFT)(Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 9,15 |
2 | 0,11 | 0,11 | 9,12 |
4 | 0,11 | 0,11 | 9 |
8 | 0,11 | 0,11 | 8,81 |
24 | 0,13 | 0,13 | 7,71 |
48 | 0,16 | 0,16 | 6,34 |
96 | 0,2 | 0,2 | 4,81 |
Dokumentgröße: 256 Token
Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 256 Token beträgt, und die Benchmarks sind für die Umlagerung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.
Anzahl Dokumente | Time to First Token (TTFT)(Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 9,1 |
2 | 0,11 | 0,11 | 9,03 |
4 | 0,11 | 0,11 | 8,73 |
8 | 0,12 | 0,12 | 8,14 |
24 | 0,15 | 0,15 | 6,47 |
48 | 0,2 | 0,2 | 4,91 |
96 | 0,28 | 0,28 | 3,52 |
Dokumentgröße: 512 Token
Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 512 Token beträgt, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.
Anzahl Dokumente | Time to First Token (TTFT)(Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 8,94 |
2 | 0,11 | 0,11 | 8,61 |
4 | 0,12 | 0,12 | 7,91 |
8 | 0,14 | 0,14 | 6,85 |
24 | 0,2 | 0,2 | 4,87 |
48 | 0,3 | 0,3 | 3,22 |
96 | 0,54 | 0,54 | 1,83 |
Dokumentgröße: 1024 Token
Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 1.024 Token beträgt, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.
Anzahl Dokumente | Time to First Token (TTFT)(Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) |
---|---|---|---|
1 | 0,12 | 0,12 | 8,11 |
2 | 0,13 | 0,13 | 7,22 |
4 | 0,15 | 0,15 | 6,24 |
8 | 0,19 | 0,19 | 4,99 |
24 | 0,45 | 0,45 | 2,2 |
48 | 0,73 | 0,73 | 1,34 |
96 | 1,38 | 1,38 | 0,72 |
Dokumentgröße: 2048 Token
Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 2.048 Token beträgt, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.
Anzahl Dokumente | Time to First Token (TTFT)(Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) |
---|---|---|---|
1 | 0,15 | 0,15 | 6,13 |
2 | 0,18 | 0,18 | 5,14 |
4 | 0,25 | 0,25 | 3,84 |
8 | 0,38 | 0,38 | 2,52 |
24 | 1,05 | 1,05 | 0,94 |
48 | 2,01 | 2,01 | 0,49 |
96 | 3,77 | 3,77 | 0,26 |
Dokumentgröße: 4096 Token
Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 4.096 Token beträgt, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.
Anzahl Dokumente | Time to First Token (TTFT)(Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) |
---|---|---|---|
1 | 7,35 | 7,35 | 4,65 |
2 | 7,35 | 7,35 | 3,71 |
4 | 7,35 | 7,35 | 2,43 |
8 | 7,35 | 7,35 | 1,24 |
24 | 7,35 | 7,35 | 0,49 |
48 | 7,35 | 7,35 | 0,26 |
96 | 7,35 | 7,35 | 0,14 |