データソースを検討する
学習の目的
この単元を完了すると、次のことができるようになります。
- データのコンテキストについて話し合う。
- データについて尋ねる質問を特定する。
- 誰かがデータに含まれている/含まれていないということがなぜ分析に影響するのかを説明する。
データのバイアスを排除する
欠陥のあるデータを分析しても欠陥のある結果しか生成されないのと同じように、欠陥のあるデータを視覚化しても誤解を招く虚偽的なダッシュボードやグラフしか生成されません。
害を及ぼさないという点を考えるときには、考えられるいくつかの可能性についてデータにバイアスがかかっていないか、そして人種差別的または弾圧的なデータ収集システムの影響がないかを確認します。視覚化の基礎となるデータにバイアスがかかっていると、視覚化によってそのバイアスとバイアスが生み出す害が増幅されてしまいます。
データ分析からバイアスを排除するにはどうすればよいのでしょうか? プロジェクトの最初から公平な視点を組み込むことです。次の質問を自問してみましょう。
- 分析の作成に関与したチームメンバーは誰か?
- チームまたは組織は多様性に富んでいるか?
- 多様性、平等、インクルージョン (DEI) の問題を最重要視しているか?
- そしてこれらの問題はチームや組織にも周知されているか?
調査がどのように設計され、データがどのように収集され、そのデータの分析がどのように行われて結果がどのように伝えられたのかを詳しく調べます。これは万能ではなくても、このように広い視野を持つことは、調査、分析、伝達からバイアスを排除するのに重要な役割を果たします。
データのバイアスを認識する
データアプローチのフレームワークをしっかりと決めておけば、データのアナリスト、コミュニケーター、そしてリサーチャーが潜在的にバイアスのかかったデータを特定して処理するのに役立ちます。次の質問を検討してください。
- このデータはどのように生成されたのか?
- このデータはなぜ収集されたのか
- このデータでは、誰の声、生活、経験が含められていて、誰の声、生活、経験が除外されているのか?
- このデータは、人種、性別、民族などによってどのくらい集計を解除できるのか?
- このデータは人口統計学的に代表的であるか?
- このデータを収集または公開することで、誰に恩恵があり、誰に害がもたらされる可能性があるのか?
データ、特に人々に関して収集されたデータは、中立的でも客観的でもありません。リサーチャーやデータ収集者の意識的な、そして無意識のバイアスと視点が反映されてしまうからです。DEI レンズのみを適用してもバイアスのかかったデータや分析を修復することはできませんので、これは重要なポイントであると言えます。リサーチャー、アナリスト、そしてデータコミュニケーターとして、データで明らかになった格差の根本原因を考え、その情報を念頭に置いた枠組みで作業を進めることが不可欠です。
インクルージョンを優先する
データと視覚化に誰を含めて誰を含めないかを認識することが重要です。あなたはリサーチャーとして、組織がよりインクルーシブなアンケートを実施できるように協力できますか? 特定のグループに関するデータを取得することが困難であるという理由だけで、それらのグループの生活を理解しようとする努力を止めてよいことにはなりません。
あるグループのデータが収集または表示されない場合、そのグループの人々が社会で最も軽視されているということがよくあります。一方で、無視したデータから社会的バイアスや無関心が明らかになることもあります。その顕著な例は地図です。米国の地図の多くには、米国の海外領土は示されていません。つまり、議会に代表を送っていない人々は存在しないものとされているのです。そしてその大半は非白人です。
そして、人種に関する多くのグラフには、黒人やヒスパニック/ラテン系は示されていますが、その他の人種や民族のグループは除外されています。多くの場合、その理由はサンプルが少なかったり、データがまったく存在しなかったりするためです。欠落しているグループやその代表について考えるときは、インクルーシブなデータを使用することがどれほど重要であるかを認識しましょう。
データのインクルージョンを改善する
データが可能な限りインクルーシブであるようにするには、共感と感受性を持ってすべての人々を導くと共に、以下のガイドラインを守ってください。
グループを同一視しない
サンプルが少ないグループは、分析しやすいように他のグループと一緒にされることがあります。たとえば、米国の人種や民族を示す地図では、少数グループの説明なしで「その他」としてまとめられることがあります。このようにすると、まとめられてしまったコミュニティに悪い影響を及ぼす可能性があります。
過少比率グループの少ないサンプルを使用することは特権グループ側の選択であり、過少比率グループの本質的な制限ではありません。現実的には、時間や予算の制限によって少ないサンプルは避けられないことがあります。ですが、集計することで特定グループのバリエーションが隠れてしまうケースや、少ないサンプルでは客観的で正確な統計や科学的な観測が行えないケースを認識することで、より良い結果を得ることができます。アンケートを設計して発行するデータプロデューサーとしては、データで収集するグループの数を増やす努力も必要です。データリサーチャーとプロデューサーのどちらも、すでに軽視されているコミュニティの負担を増やすのではなく、すべての人々の生活を反映したデータを収集するために、より良い働きをするように努力する必要があります。
ノンバイナリジェンダーカテゴリを含める
特定のグループがデータの収集対象から完全に除外されてしまうことがあります。たとえば、連邦政府が実施する主要なアンケートの多くでは、性別についての質問にノンバイナリやトランスジェンダーの選択肢を設けていません。これは、データに含まれている情報と含まれていない情報を閲覧者に明確に示す機会です。
ノンバイナリカテゴリが存在しないことを指摘することで、次のデータリサーチャーやコミュニケーターに対して、今後のアンケートや視覚化で必要な変更を促すことにつながることもあります。データプロデューサー、コンシューマー、コミュニケーターが連携しないと、インクルージョンの目標を達成することはできません。
「その他」の代替表現を探す
グループを分類する場合には、インクルーシブな言葉の重要性を理解することが大切です。「その他」を分析して伝達するのに適切なアプローチは何でしょうか? このグループをよりインクルーシブな言葉で表現できますか? まず、カテゴリの分類が何を基準としているかを理解する必要があります。人種、民族、宗教、その他の特性や、それぞれの組み合わせなど、幅広居基準があります。このような試みは、一般的なカテゴリに分類されない人々にとっては有意義ですが、多様な特性や実体験で人々をグループ化することに意味があるのかどうかを考える必要があります。
「その他」の代替表現としては次の 6 つが考えられます。
- その他の人種
- 追加グループ
- 他のすべての自己説明グループ
- その他または複数人種としてのアイデンティティを持つ人々
- リストにないアイデンティティ
- アンケートにないアイデンティティ
冗長な表現もあり、テーブルや棒グラフの棒の下には入り切らない場合もあります。ですが、これらはよりインクルーシブであり、これまでに説明してきた問題のいくつかを回避することができます。これらのラベルはアンケートの回答者にとっては正確な選択肢ではない場合もあり、回答者は他の選択肢がないために「その他」を選んでしまうこともあります。
そのような懸念がある場合は、簡単なメモや脚注を追加して、元のデータから結果の表現に至るまでに変更があったことを説明しておくこともできます。ですが、一般的な感覚では、これらの代替表現は正確であり、グラフ、テーブル、テキストにメモや脚注などを追加することで、閲覧者に変更について明確に知らせておくのがよいでしょう。
すべてのグループを含めることができない場合は説明を追加する
特定のグループのデータが収集されても、グラフで表現されていなかったり、分析に含まれていなかったりする場合には、元のデータセットに含まれていたグループを示すことで手法を明らかにします。あるいは、閲覧者に間違った情報を提供しないように、データの調査における不一致を示すこともできます。
リソース
- インタビュー: How can we do no harm with data? (データで害を及ぼさない方法)
- 動画:Do No Harm Guide (害を及ぼさないためのガイド)
- 動画トランスクリプト: Do No Harm Guide (害を及ぼさないためのガイド)
- Web サイト: Tableau Do No Harm (Tableau は害を及ぼさない)
- ドキュメント: Urban Institute Consolidated Recommendations (アーバン研究所による推奨事項のまとめ)
- 書籍: Data Feminism, by Catherine D’Ignazio and Lauren F. Klein (データのフェミニズム、Catherine D’Ignazio および Lauren F. Klein 共著)