今回はMDM(マスタデータ管理)の世界における“ゴールデンレコード”についてお話したい。直訳すれば、黄金のような(価値ある)レコードということになるが、いったいどういうものであろうか?バックナンバー2014.3.12“マスタHUB”では、MDM環境下では中央に位置するデータHUBに格納された唯一の正本マスタから、複数の個別アプリケーションへデータが同期されることでマスタデータの一貫性が保持されることが説明されている。この“正本“がゴールデンレコードそのものであり、全社システムの情報の鮮度、精度を保つ源(みなもと)となる。ゴールデンレコードの条件は、全社システムへブロ-ドキャストされても問題ないデータ品質であるということになる。これにはレコードが必要十分なデータ項目を保有しているかいうメタデータ的観点と、各データ項目の値そのものが正しいかどうかというインスタンス的観点を満たす必要がある。
そもそもこのゴールデンレコードの成り立ちはどのようなものであろうか?図1にゴールデンレコード生成過程の概要を表した。図中ではゴールデンレコードのデータ発生元は当該マスタを最初に利用する業務アプリケーション若しくは、エントリ画面から直接生成されることが示されている。今回はこの生成過程に沿って上記の2つの観点からデータ品質について考えてみたい。
最初にメタデータ的観点からご説明したい。図中で個別業務プリケーションが発生元となっているケースで、最初に生ずる疑問は“個別業務アプリケーションの世界で通用したマスタデータが果たして全社アプリケーションに適用できるだろうか?”ということである。答えは「そのまま全社版として通用するものと、そうでないものがある」となる。前者には会計システム発の“勘定科目”のように企業の全社ルールとして確立しているものが該当する。では後者はどうであろうか?品目や取引先マスタは、業務アプリケーション領域毎に異なる管理属性が存在する。例えば受注システムにおける取引先マスタにはCRMシステムで必要となる“取引先区分”はさしあたり不要であったりする(実はあった方が良い事があるが)。言い換えると、全社版として通用するゴールデンレコードは、これら個別業務アプリ発の各マスタの和集合ということになる。もう一方のエントリ画面から生成されるケースはどうであろうか?複数業務領域にまたがるマスタは異なるデータオーナーによって領域別に分散入力が必要となる。通常は部門別の承認プロセスを伴うワークフローを介してデータが順次登録され、その結果ゴールデンレコードが完成することになる。
次にインスタンス的観点から説明する。こちらは正しいデータを不特定多数の全社システムに届ける為にはメタデータ的観点以上に大切と言える。にもかかわらずこの部分は殆どが人海戦術に頼っておりかつ属人性が高いことが否めない現状がある。欧米におけるデータチュワードのようなオーソライズされた職種も未だ国内では見かけない。体制面の課題はさておき、個々のデータ項目の値の正しさについては、初期のデータエントリ時点でのチェックや承認作業によって品質を高めることができるが、レコード1件毎が正しく生成されたとしても残る問題に、実態が同じレコードの重複登録がある。この問題の“性質(たち)が悪い”のは、マスタレコードに重複登録があったとしても個別業務処理(受注、出荷、請求、入金など)が問題なく遂行できてしまうところにある。レコード1件毎を見れば正しいので、伝票明細ベースの基幹系業務処理は問題なく完結する。問題はCRMやマーケティング等の情報系処理において、品目や取引先別に売上数量や金額を分析しようとした瞬間に発覚する。このレコード重複は、マスタエントリー段階で防ぐのはかなり難しい。特に複数部署で同一マスタを分担入力している場合にそれは顕著である。この重複の発見に用いるのが“名寄せソフト“であり、名寄せ後のレコードがいわゆるゴールデンレコードということになる。
最近IT業界では、再びビッグデータ等のデータ利活用が叫ばれているが、このゴールデンレコードなくして情報分析はあり得ない。また、地道な名寄せ作業も、ノイズを除去するクレンジング作業も、有能なソフトウエアをもってすれば大幅な時間短縮となるので大いに活用されたい。
以上、ゴールデンレコードの概要がご理解いただけたであろうか。データは再利用してなんぼのもの。ビッグデータは単なる流行ものではない。業務系システムの再構築も避けて通れないが、いい加減に次のステージに移らないと、情報処理分野での欧米との距離がますます広がるばかりだ。その為のデータ廻りの基盤整備が急務である。