1。妥当性:
* テストは、測定すると主張するものを測定しますか? これが最も重要な側面です。
* コンテンツの妥当性: テストは、テストされているコンテンツを正確に反映していますか? (例えば、履歴テストでは、関連する歴史的出来事をカバーする必要があります)。
* コンストラクトの妥当性: テストは、それが評価することを目的とした基礎となる理論的構成を測定しますか? (たとえば、IQテストでは、記憶スキルだけでなく、インテリジェンスを測定する必要があります)。
* 基準関連の妥当性: テストは同じ構造の他の測定値と相関していますか? (たとえば、新しいパーソナリティテストでは、確立された人格テストと同様の結果が生じるはずです)。
2。信頼性:
* テストは一貫した結果を生成しますか?
* テストと再テストの信頼性: 同じ個人に複数回管理した場合、テストは同様のスコアを生成しますか?
* 内部一貫性の信頼性: テストのさまざまな部分は、同じ構造を一貫して測定しますか?
* 評価者間信頼性: 異なる得点者/評価者は、同じテストで同様の結果に到達しますか?
3。実用性:
* テストは実行可能で効率的ですか?
* 費用対効果: 管理するのは手頃な価格ですか?
* 時間効率: 合理的な時間枠で完了できますか?
* 管理の容易さ: 管理して得点するのは簡単ですか?
* アクセシビリティ: 多様な人口に使用できますか?
4。公平性:
* このテストは、すべてのテスト人に平等な機会を提供しますか?
* バイアス: テストは特定のグループに不公平に不利になりますか? (例えば、文化的背景、言語、または障害による)。
* アクセシビリティ: テスト形式とコンテンツは障害のある個人に対応していますか?
5。解釈可能性:
* 結果は明確で意味がありますか?
* クリアスコアリング基準: 得点手順は透明で理解できますか?
* 意味のある解釈: スコアは、個人の能力や特性に関する有用な洞察を提供しますか?
6。関連性:
* テストには明確な目的と影響がありますか?
* 目標とのアライメント: このテストは、特定の学習目標または目標の達成に貢献していますか?
* 有益なフィードバック: このテストは、学習やパフォーマンスを改善するための貴重なフィードバックを提供しますか?
要約:
優れたテストは有効で、信頼性があり、実用的で、公正で、解釈可能で、関連する 。 これらの基準は、開発および実装プロセス全体で考慮される必要があります。テストは完璧ではないことを覚えておくことが重要ですが、これらの分野での卓越性を目指して努力することで、関係するすべての人にとって有意義で有益なテストを作成できます。
