試験コード:PCAD-31-02
ステータス:実施中
PCAD™-31-02試験は、Pythonおよび SQL を用いてデータを取得・前処理・分析・モデリングし、その結果を適切に伝達する能力を評価するための試験です。試験は、単一選択式および複数選択式の設問で構成されています。
各設問は最大 1 点として採点され、試験終了後に得点が正規化されます。最終結果はパーセンテージ(%)で表示されます。
本試験は、データアナリティクスの主要分野と、プログラミングおよび SQL クエリに関する中核的な技術スキルを評価する 5 つのセクション(ブロック) で構成されています。
各ブロックに含まれる設問数および配点比率は、実務において各分野が占める重要度を反映しています。
以下の表は、試験問題の構成と各セクションの配点比率をまとめたものです。
| セクション番号 | セクション名 | 問題数 | 配点比率 |
|---|---|---|---|
| 1 | データ取得と前処理 | 14 | 29.2% |
| 2 | プログラミングとデータベースのスキル | 16 | 33.3% |
| 3 | 統計解析 | 4 | 8.3% |
| 4 | データ分析とモデリング | 9 | 18.8% |
| 5 | データの伝達と可視化 | 5 | 10.4% |
| 48 | 100% |
最終更新日:2025年7月15日
PCAD-31-02 に準拠
出題数 → 14 問
1.1.1 – データ収集方法の説明と研究・ビジネス・分析における活用の比較
1.1.2 – 複数ソースからのデータ集約およびデータセットとしての統合
1.1.3 – さまざまなデータ保存ソリューションの説明
1.2.1 – 構造化データと非構造化データの理解およびデータ分析における違いと影響の把握
1.2.2 – 誤ったデータの特定、修正、または除去
1.2.3 – データ正規化とスケーリングの理解
1.2.4 – データクレンジングおよび標準化手法の適用
1.3.1 – 基本的なデータ検証手法の実行と理解
1.3.2 – 明確な検証ルールによるデータ完全性の確立と維持
1.4.1 – データ取得におけるファイル形式の理解
1.4.2 – データセットへのアクセスと管理、および有効活用
1.4.3 – さまざまなソースからのデータ抽出
1.4.4 – スプレッドシートの可読性とフォーマットのベストプラクティスの適用
1.4.5 – データ分析のための準備・調整・前処理
出題数 → 16 問
2.1.1 – データ関連の問題を解決するためのPython構文と制御構造の適用
2.1.2 – Pythonの関数の分析と設計
2.1.3 – Pythonにおけるデータサイエンスのエコシステムの評価と活用
2.1.4 – Pythonの基本データ構造を用いたデータ操作
2.1.5 – Pythonスクリプトにおけるベストプラクティスの理解と実践
2.2.1 – モジュールのインポートと PIP によるパッケージ管理
2.2.2 – 基本的な例外処理によるスクリプトの保守性向上
2.3.1 – オブジェクト指向の基礎を用いたデータの構造化
2.3.2 – コードの再利用と可読性を高めるためのオブジェクト指向デザイン
2.3.3 – データ処理パイプラインにおけるオブジェクトの同一性と比較の管理
2.4.1 – SQL によるデータの取得と操作
2.4.2 – SQL による基本的な CRUD 操作(データの作成・取得・更新・削除)
2.4.3 – Pythonからデータベースへ接続
2.4.4 – Pythonでパラメータ化された SQL クエリの実行
2.4.5 – SQL のデータ型の理解および Python スクリプト内での適切な取り扱い
2.4.6 – データベースの基本的なセキュリティとSQLインジェクション対策の理解
出題数 → 4 問
3.1.1 – データ分析における統計的な指標の理解と適用
3.1.2 – データ間の関係性の分析と評価
3.2.1 – ブートストラップ法による標本分布の理解と活用
3.2.2 – 線形回帰とロジスティック回帰の使いどころと限界の説明
出題数 → 7 問
4.1.1 – Pandasを用いたデータの整理とクレンジング
4.1.2 – Pandasによるデータ結合と再構造化
4.1.3 – Series と DataFrameの関係性の理解
4.1.4 – ロケータとスライシングによるデータアクセス
4.1.5 – 配列演算と基本データ構造の使い分け
4.1.6 – データの集計・要約と洞察の抽出
4.2.1 – Python による記述統計を用いたデータセット分析
4.2.2 – モデル評価におけるテストデータの重要性の理解
4.2.3 – 教師あり学習アルゴリズムとモデル精度の分析と評価
出題数 → 5 問
5.1.1 – Matplotlib と Seaborn による基本的な可視化スキルの習得
5.1.2 – 表現方法ごとの長所・短所の評価
5.1.3 – 明確に伝わるようにグラフを調整・注釈するスキルの育成
5.2.1 – 相手に合わせたコミュニケーションおよび可視化とテキストの組み合わせ
5.2.2 – 主要な知見の要約およびエビデンスと論理的理由による根拠づけ
Download PCAD-31-02 Exam Syllabus in PDF
PCAD™ – Certified Associate Data Analyst with Pythonの MQC(最小合格候補)は、ジュニアレベルのデータ分析業務を実務で支援できる、必要十分かつ本質的なスキルと知識を備えた人材です。
受験者は、Python、SQL、および一般的なデータ分析ツールやライブラリを用いて、データの取得、クレンジング、前処理、分析、モデリング、結果の共有・報告までの一連の流れを理解している必要があります。 また、データベース、スプレッドシート、API、HTML形式のWebページなど、さまざまなデータソースに接続し、requests や BeautifulSoupなどのライブラリを用いて必要なデータを取得できることが求められます。
MQC は、変数、関数、制御構造、リスト・辞書・セットなどのデータ構造を活用し、可読性と保守性を意識した Python スクリプトを記述できます。 ドキュメンテーション、例外処理、モジュール化といった Python のベストプラクティスを実践し、pip を用いたパッケージ管理も行えます。
さらに、Pandas、Numpy、statistics などのライブラリを用いて、構造化データのクレンジング、整形、分析を行い、記述統計量、相関、基本的な集計指標を計算できます。SQL を用いたデータの取得および操作、sqlite3 を用いた Pythonスクリプトからのデータベース接続も評価対象となります。加えて、パラメータ化クエリを用いた SQL インジェクション対策を理解している必要があります。
候補者は、線形回帰やロジスティック回帰などの基本的な統計モデルを扱い、ブートストラップなどの推測統計手法を適用できます。また、モデル検証、テストデータによる分割評価の重要性、および過学習リスクについても理解していることが期待されます。
最後に、MQC は Matplotlib や Seaborn を用いて、わかりやすく洞察に富んだ可視化を作成し、受け手に応じた「データストーリー」を構成できなければなりません。設計やコミュニケーションレベルのベストプラクティスに基づき、書面および口頭の両面で分析結果を効果的に伝達できることが求められます。
この MQC プロファイルは、データ活用環境の複雑性に対応するために不可欠な、技術的熟達度・分析的思考力・コミュニケーション能力を兼ね備えた人物像を示しています。
配点比率:全体の29.2%(14問)
MQCは、データとは何か、どのように構造化されるか、どのような手順で分析可能な情報に変換されるかを理解している必要があります。データ型として、構造化データ、半構造化データ、非構造化データの違いを説明でき、それぞれが保存方法、処理方法、分析手法にどのような影響を与えるかの説明も求められます。また、アンケートやインタビュー、API、BeautifulSoup などのツールを用いたWebスクレイピングといった、さまざまなデータ収集手法を説明し、それらが調査・ビジネス・分析の現場でどのように使われるかを理解していることが前提となります。
さらに、CSV、JSON、Excel、データベース、データレイク、データウェアハウスなど、データ型に応じた適切な保存形式やストレージを選択でき、クラウドストレージが現代のデータエコシステムで果たす役割を説明できる必要があります。不適切なデータ収集や保存の実践が、後続の分析プロセスでデータ品質の低下やエラーの原因になることも理解していることが求められます。
MQCは、複数のソースからデータを統合し、集約の際に発生する不整合を解消することができます。フォーマットの揃え方、型の不一致、スキーマの違いがもたらす影響を理解しており、欠損値・重複データ・不正な値の特定の修正など、基本的なデータクレンジング手法を適用できます。また、カテゴリ変数のエンコーディング、数値データのスケーリング、日付・時刻データの形式統一といった処理の重要性も理解しています。
型チェック、範囲チェック、クロスチェック(クロスリファレンス)のような基本的な検証手法を用いて、データ品質と整合性を確保できることが求められます。さらに、ソート、フィルタリング、ワイド形式・ロング形式へのリシェイプ、モデル構築に備えた訓練データとテストデータへの分割などを通して、分析に適した形にデータを整えることができます。また、個人データを扱う際の倫理的・法的責任(匿名化、同意取得、GDPR や HIPAA などの枠組みへの準拠)についても理解している必要があります。
配点比率:全体の33.3%(16問)
MQCは、Python を用いてデータ処理タスクを行うための十分なプログラミングスキルを備えている必要があります。整数・浮動小数点数・文字列・ブール値といった基本データ型や、リスト・辞書・タプル・セットなどの代表的なデータ構造を使って、変数の定義・更新・操作が行えます。また、パラメータと戻り値を持つ関数を用いて、再利用性の高い分かりやすいコードを書き、条件分岐やループなどの制御構造を使って、データの処理・分析を効率的に進められることが求められます。
クリーンコードの考え方を理解しており、インデントや命令規則、PEP 8・PEP 257 に沿ったドキュメンテーションなどのベストプラクティスを意識してコードを書きます。また、csv、os、math、statistics、datetime、collections などの標準ライブラリに親しみがあり、pipを使って外部パッケージのインストール・管理ができることも求められます。
MQCは、オブジェクト指向プログラミング(OOP)の基本を理解し、データを構造化して扱うために活用できます。クラスを定義し、オブジェクトを生成し、その中に属性やメソッドを整理して配置するきおとで、再利用性が高く見通しのよいデータ処理ワークフローを構築できなければなりません。
Python に加えて、構造化データの取得と操作のために SQL を使いこなすことも期待されています。SELECT、WHERE、各種 JOIN 句を用いてデータを取得・絞り込み、GROUP BY、HAVING、ORDER BY などを使って集計やグルーピングを行えます。また、INSERT、UPDATE、DELETE といった CRUD 操作を行う SQL 文を記述できる必要があります。
さらに、sqlite3などのライブラリを利用して、Pythonスクリプトからリレーショナルデータベースに接続し、パラメータ化クエリを実行して SQL インジェクションからシステムを保護しつつ、データの整合性を保てることが求められます。加えて、データの取得・挿入時に、SQL側とPython側のデータ型を適切に変換する方法を理解していることも重要です。
配点比率:全体の8.3%(4問)
MQCは、統計の基礎概念をしっかり理解し、記述統計を用いてデータセットを要約できることが求められます。平均・中央値・最頻値といった代表値や、分散・標準偏差といったばらつきの指標を理解し計算でき、正規分布や一様分布など基本的な分布の種類を説明できなければなりません。
またピアソンの相関係数を用いて変数間の関係性を評価し、外れ値を視覚的・統計的に特定できる必要があります。ヒストグラム、箱ひげ図、散布図といった可視化が、データの分布や傾向を探索的に理解するための重要な手段であることも理解しています。
推測統計の観点では、理論分布がはっきりしない場合に標本分布を推定する手法として、ブートストラップに慣れていることが求められます。離散データと連続データの違いを理解し、信頼性評価などでブートストラップが適切に使える場面を判断できなければなりません。
さらに、線形回帰とロジスティック回帰を説明・適用でき、その前提条件(仮定)を理解したうえで、回帰係数やモデル適合度指標などの出力を解釈できることが求められます。過学習といった典型的な限界にも注意を払い、モデル検証の重要性について説明できることが、MQCに期待される能力です。
配点比率:全体の18.8%(9問)
MQCは、Pandas と NumPy を用いたデータ分析に十分な習熟度を持っていることが求められます。Pandas では、 dropna()、fillna()、sort_values()、replace()などの関数を使ってデータのクレンジングと整理ができ、pivot()、melt()、groupby()、merge()といったメソッドでデータの形を変えたり再構造化したりできます。さらに、DataFrame と Series の違いと役割を理解し、.loc や .iloc を用いてデータに正確にアクセス・更新できる必要があります。
NumPyでは、要素ごとの計算、集約処理、配列のブロードキャストなどの数値演算を行うことができ、大規模データに対してPythonの標準リストよりもNumPy配列が高いパフォーマンスを発揮する理由を理解している必要があります。
記述統計による要約や、ビニング(区間分割)、スケーリング、エンコーディングといった基本的な特徴量エンジニアリングを行い、モデリングの準備を整えることも求められます。また、グループ集計や条件付きフィルタを組み合わせてPandasとNumPyを活用し、データセットから有用な洞察を抽出できなければなりません。
さらに、教師あり学習の基本的な流れを理解し、train/test split によってモデルを評価する手順を身につけていることが重要です。基本的な線形回帰・ロジスティック回帰モデルを当てはめて結果を解釈でき、精度(accuracy)、過学習(overfitting)、過小適合(underfitting)、バイアスとバリアンスのトレードオフといった主要なモデリング概念について理解していることが、MQCに期待される内容です。
配点比率:全体の10.4%(5問)
MQCは、Matplotlib と Seaborn を使って、データを効果的に可視化・解釈できることが求められます。データの種類や目的に応じて適切なグラフを選び、棒グラフ、ヒストグラム、散布図、箱ひげ図、折れ線グラフ、相関ヒートマップなどを用いて、傾向やパターンを分かりやすく表現できます。
また、ラベル、タイトル、凡例、グリッド線、カラースキームなどを追加してグラフの可読性を高める方法を理解しています。注釈を加えて重要なポイントを強調し、見た目を調整して、情報が伝わりやすいチャートに仕上げることができます。
MQCは、簡潔で分かりやすい要約テキストと可視化を組み合わせることで、分析結果をさまざまな相手に伝えられます。データチームのような技術的なステークホルダーにも、マネージャーやクライアントのような非技術系の受け手にも、それぞれに合わせてメッセージや説明の深さを調整することができます。
さらに、ビジネスや研究上の問いと分析結果を結びつける「データストーリー」を組み立て、結論や提言がデータに裏打ちされていることを示せる必要があります。スライド資料やレポートのデザイン原則を理解し、情報過多やあいまいな表現、誤解を招くグラフ表現を避ける、といった点にも配慮できることが期待されています。
PCAD試験に合格するためには、すべての出題セクションにおける平均正答率が75%以上であることが求められます。