<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>データ品質 on FX検証日記</title><link>https://etherpoc.com/ja/tags/%E3%83%87%E3%83%BC%E3%82%BF%E5%93%81%E8%B3%AA/</link><description>Recent content in データ品質 on FX検証日記</description><generator>Hugo</generator><language>ja</language><lastBuildDate>Sat, 27 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://etherpoc.com/ja/tags/%E3%83%87%E3%83%BC%E3%82%BF%E5%93%81%E8%B3%AA/index.xml" rel="self" type="application/rss+xml"/><item><title>テストデータの話 — どこから持ってきて、どう整えているか</title><link>https://etherpoc.com/ja/posts/data/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://etherpoc.com/ja/posts/data/</guid><description>&lt;p&gt;検証は「データがすべて」と言ってもいいくらい、もとになるデータが命です。ここでは、このサイトの検証で使っているデータの中身を紹介します。&lt;/p&gt;
&lt;h2 id="どんなデータを使っているか"&gt;どんなデータを使っているか&lt;/h2&gt;
&lt;p&gt;メインで使っているのは、FXの主要な通貨ペアや金(ゴールド)などの&lt;strong&gt;1分足(M1)のOHLCV&lt;/strong&gt;データです。OHLCVというのは、各時間の「始値・高値・安値・終値・出来高」のこと。1分足を持っておけば、そこから5分足・1時間足・日足など好きな時間軸に作り直せます。&lt;/p&gt;
&lt;p&gt;期間はおおむね&lt;strong&gt;2015年から最近まで&lt;/strong&gt;。長い期間があると、上昇相場・下落相場・荒れた時期(コロナショックなど)をまたいでテストできるので、「特定の相場でしか勝てない戦略」をあぶり出せます。&lt;/p&gt;
&lt;p&gt;株価指数(S&amp;amp;P500や日経225など)については、別のデータ源(Yahoo Financeの日足や、Dukascopyの分足)も使っています。指数はFXとは違う動きをするので、分散の材料としてとても役立ちます。&lt;/p&gt;
&lt;h2 id="保存形式--なぜparquetなのか"&gt;保存形式 — なぜParquetなのか&lt;/h2&gt;
&lt;p&gt;生のデータはCSV(テキスト)ですが、そのまま読むと毎回とても遅いです。そこで、&lt;strong&gt;Parquet&lt;/strong&gt;という列指向の形式に変換して保存しています。これは表計算でいう「列ごとにギュッと圧縮して保存する」イメージで、読み込みが圧倒的に速く、複数の検証から同時に読んでも安全です。&lt;/p&gt;
&lt;p&gt;おかげで、たくさんの検証を並行して走らせても、データの読み込みが足を引っぱりません。&lt;/p&gt;
&lt;h2 id="データの品質チェックこれが地味に重要"&gt;データの品質チェック(これが地味に重要)&lt;/h2&gt;
&lt;p&gt;実は、過去に痛い目を見たことがあります。ある時期の金のデータに異常があり、それが原因で戦略が「すごく勝てている」ように見えていたんです。調べたら、勝ちの大部分がその壊れたデータ由来でした。&lt;/p&gt;
&lt;p&gt;この経験から、**異常なバーを自動で検出して除外する仕組み(データ・クリーニング)**を入れました。たとえば「1日の値幅が異常に大きい」「価格が不自然に飛んでいる」といったバーをはじきます。検証は、原則このクリーンなデータで行います。&lt;/p&gt;
&lt;h2 id="出どころについての補足"&gt;出どころについての補足&lt;/h2&gt;
&lt;p&gt;FXのヒストリカルデータは、ある取引所(ブローカー)の実データを使っています。フォーマットは一般的なテキスト形式ですが、中身はそのブローカーの配信値です。ブローカーが違えばスプレッド(売買の価格差)や値も少し変わるので、&lt;strong&gt;「どのデータで検証したか」で結果は多少変わる&lt;/strong&gt;という点は、いつも頭に置いています。だからこそ、コスト(スプレッドやスリッページ)を厳しめに見積もって検証するようにしています。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;元データ(ヒストリカル)はライセンスの都合などから公開リポジトリには含めていません。ここで紹介しているのは「どう扱っているか」という方法の話です。&lt;/p&gt;
&lt;/blockquote&gt;</description></item></channel></rss>