CIAパート2：構造化データと非構造化データの分析

Contents

テーマ：「整理された棚」と「投げ込み箱」～データの種類と監査アプローチ～

セクションB-4-cは、現代の内部監査にとって避けて通れない「データ・リテラシー」の基礎です。

かつての監査は「帳簿（数字）」を見ることが中心でしたが、GIAS（新基準）では、組織内のあらゆる情報を分析対象とすることが求められています。試験では、目の前にあるデータが「どのような性質」を持っており、それを分析するには「どのようなアプローチ」が必要かを区別する能力が問われます。

データは大きく分けて、整理整頓されているか否かで2種類に分類されます。

「行」と「列」で整理できるデータです。

特徴： フォーマットが固定されており、データベースやExcelに綺麗に収まります。
具体例：
- 財務会計システムの仕訳データ（日付、勘定科目、金額）
- 社員マスター（社員番号、氏名、入社日）
- 在庫リスト、入退室ログ
監査での扱い：
- 従来の監査が最も得意とする領域です。
- 並べ替え（ソート）、フィルタリング、集計、SQLによる抽出が容易です。
- CAATs（コンピュータ支援監査技法）を適用しやすいデータです。

決まった形式を持たない、自由形式のデータです。

特徴： そのままではデータベースの枠に収まらない、人間が読み書き・視聴する情報です。実は、企業内データの80%以上は非構造化データだと言われています。
具体例：
- 電子メールの本文、チャットのログ
- 契約書（PDFファイル）、稟議書の備考欄
- 顧客からの電話音声データ、会議の議事録
- ソーシャルメディアの投稿、画像、動画
監査での扱い：
- 従来は「読むのに時間がかかる」ため、サンプリング（試査）でしか見られませんでした。
- 近年は、テキストマイニングや自然言語処理（NLP）、AIを用いることで、全量分析が可能になりつつあります。

イメージ：
構造化データは「マークシート」です。機械が即座に読み取れます。非構造化データは「作文用紙」です。内容を理解するには、人間が読むか、高度なAIが必要です。

試験対策としては、上記2つに加え「半構造化データ」も頭の片隅に入れておきましょう。

不正やリスクの兆候は、きれいな数字（構造化データ）になる「前」に、コミュニケーション（非構造化データ）の中に現れるからです。

【事例：架空発注の発見】

構造化データのアプローチ： 支払いデータを見て、「金額が予算内か」「承認印があるか」を確認する。→ 不正者は辻褄を合わせるのがうまいため、見逃す可能性がある。
非構造化データのアプローチ： 購買担当者と業者間のメール（非構造化データ）を分析する。「例の件、よろしく」「いつも通り処理しておいて」といった癒着を示唆する文言（感情や文脈）を検知する。

ツールの使い分け
- 「売上の傾向分析」をしたいなら → 構造化データ（スプレッドシート、BIツール）
- 「組織風土や従業員の不満」を知りたいなら → 非構造化データ（アンケートの自由記述欄、メールのテキストマイニング）
情報の完全性
- 監査人が構造化データだけに依存すると、リスクの全体像を見誤る可能性があることを理解しているか。