【CIA試験講義】パート2 セクションB-4-c: 構造化・非構造化データを含むデータの種類
テーマ:「整理された棚」と「投げ込み箱」 ~データの種類と監査アプローチ~
セクションB-4-cは、現代の内部監査にとって避けて通れない「データ・リテラシー」の基礎です。
かつての監査は「帳簿(数字)」を見ることが中心でしたが、GIAS(新基準)では、組織内のあらゆる情報を分析対象とすることが求められています。 試験では、目の前にあるデータが「どのような性質」を持っており、それを分析するには「どのようなアプローチ」が必要かを区別する能力が問われます。
1. データの2大分類:「構造化」と「非構造化」
データは大きく分けて、整理整頓されているか否かで2種類に分類されます。
① 構造化データ(Structured Data)
「行」と「列」で整理できるデータです。
- 特徴: フォーマットが固定されており、データベースやExcelに綺麗に収まります。
- 具体例:
- 財務会計システムの仕訳データ(日付、勘定科目、金額)
- 社員マスター(社員番号、氏名、入社日)
- 在庫リスト、入退室ログ
- 監査での扱い:
- 従来の監査が最も得意とする領域です。
- 並べ替え(ソート)、フィルタリング、集計、SQLによる抽出が容易です。
- CAATs(コンピュータ支援監査技法)を適用しやすいデータです。
② 非構造化データ(Unstructured Data)
決まった形式を持たない、自由形式のデータです。
- 特徴: そのままではデータベースの枠に収まらない、人間が読み書き・視聴する情報です。実は、企業内データの80%以上は非構造化データだと言われています。
- 具体例:
- 電子メールの本文、チャットのログ
- 契約書(PDFファイル)、稟議書の備考欄
- 顧客からの電話音声データ、会議の議事録
- ソーシャルメディアの投稿、画像、動画
- 監査での扱い:
- 従来は「読むのに時間がかかる」ため、サンプリング(試査)でしか見られませんでした。
- 近年は、テキストマイニングや自然言語処理(NLP)、AIを用いることで、全量分析が可能になりつつあります。
イメージ:
構造化データは「マークシート」です。機械が即座に読み取れます。 非構造化データは「作文用紙」です。内容を理解するには、人間が読むか、高度なAIが必要です。
2. その中間の存在:半構造化データ(Semi-structured Data)
試験対策としては、上記2つに加え「半構造化データ」も頭の片隅に入れておきましょう。
- 定義: 完全な表形式ではないが、タグやマーカーによってある程度の構造があるデータ。
- 例: XMLファイル、JSONファイル、HTML(Webページ)、CSVファイルなど。
- システム間のデータ連携などでよく使われます。
3. なぜ監査人はこれを知る必要があるのか?
不正やリスクの兆候は、きれいな数字(構造化データ)になる「前」に、コミュニケーション(非構造化データ)の中に現れるからです。
【事例:架空発注の発見】
- 構造化データのアプローチ: 支払いデータを見て、「金額が予算内か」「承認印があるか」を確認する。→ 不正者は辻褄を合わせるのがうまいため、見逃す可能性がある。
- 非構造化データのアプローチ: 購買担当者と業者間のメール(非構造化データ)を分析する。「例の件、よろしく」「いつも通り処理しておいて」といった癒着を示唆する文言(感情や文脈)を検知する。
4. 試験で問われるポイント
- ツールの使い分け
- 「売上の傾向分析」をしたいなら → 構造化データ(スプレッドシート、BIツール)
- 「組織風土や従業員の不満」を知りたいなら → 非構造化データ(アンケートの自由記述欄、メールのテキストマイニング)
- 情報の完全性
- 監査人が構造化データだけに依存すると、リスクの全体像を見誤る可能性があることを理解しているか。
まとめ
セクションB-4-cのポイントは、データの「形」を見極めることです。
- If データが数値や固定フォーマット(Excelで扱える)
- Then それは構造化データ。集計・比較・統計分析を行う。
- If データが文章、画像、音声
- Then それは非構造化データ。テキスト分析やキーワード検索、AI解析を用いて「意味」や「感情」を抽出する。
現代の内部監査人は、「数字(構造化)」と「言葉(非構造化)」の両方を読み解くバイリンガルであることが求められています。
【練習問題】パート2 セクションB-4-c
Q1. 内部監査人は、組織内の「コンプライアンス意識」や「倫理的な問題」に関するリスク評価を行おうとしている。この目的のために分析する情報源として、最も適切な「非構造化データ」の例はどれか。
A. 従業員の入退室記録システムのログデータ
B. 経費精算システムにおける月次申請金額のリスト
C. 社内ホットライン(内部通報窓口)に寄せられた通報内容のテキスト記録
D. 給与システムにおける残業時間の集計データ
【解答・解説】
正解と解説を表示
正解(C): 内部通報の具体的な内容(テキスト記録)は、自由記述形式であり、典型的な「非構造化データ」です。ここには数値には表れない従業員の感情や詳細な状況が含まれており、倫理観や組織風土を評価するのに最適です。
不正解(A・B・D): これらはすべて「構造化データ」です。行と列で整理でき、数値的な傾向分析には適していますが、「意識」や「倫理的な文脈」を直接読み取るには、Cの情報源に比べて情報量が限定的です。
Q2. 内部監査人は、購買業務における不正リスクの兆候を検出するためにデータ分析を実施する計画を立てている。以下の監査手続きのうち、「非構造化データ」の分析に該当するものはどれか。
A. 購買発注データを用いて、ベンダーごとの発注総額をピボットテーブルで集計する。
B. 一般化監査ソフトウェア(GAS)を使用して、ベンダーの銀行口座番号と従業員の給与振込口座番号を突合する。
C. 購買担当者の電子メールアーカイブに対して、「リベート」「キックバック」「内密に」などのキーワード検索を実行する。
D. 在庫受払い記録から、長期間動きのない滞留在庫品目を抽出する。
【解答・解説】
正解と解説を表示
正解(C): 電子メールは非構造化データです。キーワード検索やテキストマイニングは、非構造化データからリスクの兆候(文脈や意図)を抽出するための典型的な手法です。
不正解(A・B・D): これらはすべて「構造化データ(数値、コード、日付など)」を対象とした分析手続きです。データベース内の固定フィールドを用いた集計や照合は、構造化データ分析の領域です。
Q3. 現代の内部監査において、構造化データだけでなく非構造化データの分析が重要視されている理由として、最も適切な記述はどれか。
A. 非構造化データは構造化データよりもデータ容量が小さく、分析コストが安価であるため。
B. 組織が保有する情報の大部分は非構造化データであり、これを除外するとリスク評価の範囲が不十分になる可能性があるため。
C. 構造化データは改ざんされやすく、監査証拠としての信頼性が低いため。
D. GIAS(グローバル内部監査基準)において、財務監査は廃止され、非財務情報の監査のみが要求されているため。
【解答・解説】
正解と解説を表示
正解(B): 一般的に企業データの80%以上は非構造化データと言われています。構造化データ(数値など)だけを見ていては、メール、契約書、議事録などに潜む重要なリスク情報を見逃すことになり、包括的な保証を提供できません。
不正解(A): 非構造化データは通常容量が大きく、分析には高度なツールが必要なため、コストや手間はかかる傾向にあります。
不正解(C): 構造化データも重要な監査証拠であり、適切なIT統制下では信頼性は高いです。非構造化データと補完し合う関係です。
不正解(D): 財務監査が廃止されたわけではありません。財務・非財務の両面を含む包括的なアプローチが求められています。
