嘘つきのベンチマーク
公平なベンチマークの難しさベンチマークの結果は、実際には公平でない場合がある。
例えば、ClickBenchでは、各エンジンが同一の環境で測定されていないため、結果に偏りが生じる。
また、リスタートが可能なエンジンと不可能なエンジンでも、結果は異なる。
QuestDBは高負荷の時間系列データベースとして知られ、トレーディングフロアからミッションコントロールまで幅広く利用されています。この記事では、データベースベンチマークの評価方法について考察し、その複雑さと偏りを解説します。
ベンチマークの実態
ベンチマーク結果は一見公平そうに見えますが、実際には競技のルールや評価基準が複雑で、結果に偏りが生じることがあります。たとえば、競技のルールが「スピードと別のスキルのバランス」を重視する場合、最も速い選手が必ずしも勝つとは限りません。このように、データベースベンチマークも同様に、一見公平そうに見える評価基準でも、実際には偏りが生じることがあります。
ClickBenchの測定方法
ClickBenchでは、すべてのデータベースに対して同じ作業負荷をかけ、1億行以上のデータを処理するクエリを実行します。測定には「冷スタート」や「ホットスタート」の2つの方法があり、それぞれ異なる評価基準が使われます。冷スタートでは、すべてのキャッシュがクリアされ、最悪の状態で評価します。一方、ホットスタートでは、最初の実行でキャッシュが作成され、その後の実行が速くなるように設計されています。
評価の公平性と課題
ClickBenchの評価では、すべてのクエリに対して比率を計算し、全体のスコアを算出します。ただし、スコアの計算には、クエリごとの最良の実行時間と比較して、10ミリ秒のマージンが設定されています。また、評価には「冷スタート」の結果も含まれるため、クラウドサービスと自前サーバーの評価に偏りが生じる可能性があります。このため、公平な比較を行うには、自前の環境で測定することが重要です。
まとめ
データベースベンチマークの評価は、一見公平そうに見えても、実際には複雑で偏りが生じることがあります。公平な比較を行うには、自前の環境で測定することが重要です。
原文の冒頭を表示(英語・3段落のみ)
QuestDB is the open-source time-series database for demanding workloads—from trading floors to mission control.
It delivers ultra-low latency, high ingestion throughput, and a multi-tier storage engine.
Native support for Parquet and SQL keeps your data portable, AI-ready—no vendor lock-in.
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。