雑種路線でいこう

ぼちぼち再開しようか

フィルタリングの進化と格付け語彙の役割

PICSやフィルタリングが出始めた頃、セルフラベルや第三者レイティングに使う語彙は、即ちサイトに対する分類そのものだった。ところがフィルタリング技術が文章や写真の中身を判断ようになり、レイティングそのものよりはフィルタリング・ソフトのロジックが振る舞いを決定するようになりつつある。有害コンテンツがアダルトからCGMへと変遷し、PICSがサイトにメタデータを付与するPOWDERへと発展解消し、サイトの爆発的増加に対応して自動レイティングの割合が高まったとき、ICRAやSafety Onlineといった語彙の役割はどうなっていくのか。
徐々にサイト分類そのものとして直接参照される割合が減ってくる一方で、相互運用性の高いWebメタデータ体系として、レイティング事業者・窓口機関・フィルタリング・ベンダ間のデータ交換の規格としては生き残り続けるだろう。それらは直接参照されるURLデータベースとしてではなく、自動レイティング辞書のデータソースや、フィルタリング・ソフトのベンチマーク、運用実態に関する評価情報の交換といった使途に使われるのではないか。
CGMサイトが増え、それを精緻にフィルタリングする社会的要請が高まった場合に、サイトの外形要件に基づいて手動レイティングされたURLデータベースを参照するのではなく、書き込まれているコンテンツを自動レイティングし、フォーム入力やソーシャルグラフ、プロフィール検索といった構成要素を自動識別して、必要に応じて書き込みの抑止などを行うことが予想される。
そうなった時、CGMサイトの属性を示すボキャブラリが不要かというと、そうでもなくて、フィルタリング・ソフトが機械的に検知すべき属性について、ボキャブラリが定義され、手動でのレイティング・サンプルが提供されることが実は重要だ。というのも、フィルタリング・ソフトがそういった属性を自動レイティングできるようにするためには、機械学習や識別率ベンチマーキングのための元データが必要で、そのためには属性を示すボキャブラリがあった方が便利だろう。
格付け語彙と、フィルタリング・ソフトのカスタマイズ項目とかフィルタリングの振る舞い自体とは切り離し、共通の語彙が充実することによってサイトに関するメタデータを効率的に集約し、自動レイティングの精度を上げることが可能となることが重要なのではないか。
また、機械的識別ができるところはレイティングが不要となるのではなく、常に機械識別と手動識別とを比較しメンテナンスし続けるためにも、全てといわず典型的なパターンについてサンプリング的に手動レイティングし続けることは今後も重要だし、そのためには識別すべき特徴を指し示す語彙を整備し続ける必要はあるのだろう。また、フィルタリングを過信せず、あくまで保護者が子どものネット利用を効率的に管理するための、自動化し得るワークフローの一部としてフィルタリングを位置づけることが現実的ではないか。