検閲ソフト: インターネット協会の場合

作成日付 (GMT): 2002/08/11 17:14:04
最終更新日付 (GMT): $Date: 2002/09/23 17:29:10 $

これまでの経緯を英語で書きました。

お知らせ: 2002年9月17日、IAJapan はソフトウェアの過去のバージョンとの 互換性を排除したバージョンアップを行いました(バージョン3.02)。 新しい利用許諾条件 においては、リバースエンジニアリングはもちろんのこと、ラベルデータの部分的開示、 インターネット協会が『当協会の「本目的」もしくは事業を妨げると当協会が判断する』 と判断する行為全てが禁止されました。 従って、当ページにおいては下記のバージョン3.01 までの内容について、 新バージョンに対応した更新は一切行うことができなくなりました。 なお、新バージョンの許諾条件を承諾した場合、 リバースエンジニアリングによらず利用実績に基づいて インターネット協会のシステムに対して否定的な評価を公表すること自体が 損害賠償請求の対象となりえますのでご注意ください。


(最初の追記)。


はじめに

日本のインターネット業界を代表する存在である財団法人 インターネット協会(以下、IAJapan)は、その前身のひとつである電子ネットワーク協議会(以下、ENC)の時代から、「有害情報のレイティングとフィルタリング」に取り組み続けています。 その事業は、W3C標準であるPICSの規格にもとづいてコンテンツのレイティング情報を提供するラベルビューロを構築・運用する一方、ユーザとなる学校や企業の管理者に「フィルタリング」と一般には呼ばれる検閲機能をそなえた HTTP プロキシサーバを無償提供し、IAJapanのレイティングにもとづいたコンテンツの閲覧制限を推進するものとなっています。

この事業は、最近の報道発表によれば、

技術開発を担当する財団法人ニューメディア開発協会が、経済産業省からの委託を受けて情報処理振興事業協会が実施した事業の一環として開発したもの

という形で、政府の意向によって政府からの資金を提供される形で技術開発が行われています。「検閲の禁止」を憲法に定める日本国政府が民間レベルでの検閲技術の開発に資金を投じることがなぜ問題ないのか、あたまの悪い私にはよくわかりませんが、この事業が「公益性の高い」ものとして行われている傍証のひとつではあるでしょう。

透明性と説明責任に背を向け続けるIAJapan

私は個人的には検閲ソフトのようなものは存在する必要がないと考えていますが、それをおいておくとしても、検閲ソフトには高い透明性と説明責任が求められます。なぜなら、検閲ソフトでコンテンツの閲覧を制限されてしまう人は、当該コンテンツを閲覧できないので、検閲の妥当性を評価しようがないからです。コンテンツの閲覧制限の対象となるユーザに限らず、自サイトで検閲ソフトの導入を考えるサイトの管理者・責任者にとっても透明性と説明責任は重要です。自サイトの判断基準と導入するソフトの判断基準が異なっていたら困りますし、またサイト管理者・責任者も自サイトのユーザに対して説明責任を要求される場合が少なくないからです。

そのような背景のもとに、 Statement on the Intent and Use of PICS: Using PICS Wellというガイドラインが定められており、PICSの利用にあたって透明性と説明責任を果たすために、技術開発上、あるいはPICS利用サービス運用上、どのような点について配慮すべきかということが記述されています。

そこで、PICSを積極的に採用している IAJapanのフィルタリング事業において、この問題はどうなっているかというと、彼らは透明性も説明責任も不要と考えているようです。

ENC時代の1997年に最初のラベルビューロが稼働しています。ここでは、「ヌード」「セックス」「暴力」「言葉」「その他」の5カテゴリについて5段階評価を行った SafetyOnline というレイティング基準を採用していました。このカテゴリの問題は、「その他」という「なんでもあり」のカテゴリによって説明責任を回避する場合があること、またカテゴリ内の評価について、具体的な評価基準が公表されていないことです(ENC及び IAjapanのページではもう見当たらないSafetyOnlineのレイティング基準ファイルのローカルコピー。この程度の基準では、客観的な作業は不可能で、別の作業上の基準が用意されているはずです)。基準を公開するようENC 及び IAJapan の担当の方に何度か申し入れていますが、検討するまでもなく拒否ということのようです。

その上、この2002年8月に新しいレイティング基準と、それに対応した検閲ソフトがリリースされています。この新基準では、複数カテゴリは設けず、単に5段階評価とされています。IAJapan は「利用者に分かりやすい」と判断してこのような変更を行ったということですが、透明性・説明責任という観点からすればあきらかな後退です。利用者が「なぜ」コンテンツをみることが出来ないのかという点について、さらに情報を奪うものだからです。 その上、新基準のSafetyOnline2の説明をみても、 SafetyOnline のカテゴリを1つにまとめた以上の情報はありません。つまり、客観的な基準ではありえません。この新基準の作業基準もまた、公開されていません。

新基準のリリース文では

わが国では都道府県の青少年育成条例やパッケージメディア業界の自主基準などに見られるように、青少年に適切かどうかなどの複雑でない基準が一般的である

としています。つまり、それらの条例や自主基準がエンドユーザに選択の余地を与えていないように、IAJapanもまた、価値観についての選択基準を与える必要がないのだ、という判断を確信的に行っていることが分かります。しかし、少なくとも条例やパッケージメディアの自主基準では、「何がどのように評価されているか」という結果は、明解になっていますから、妥当性を検討できますし、情報発信者は不満があれば不服申し立て等をすることができます。この点、検閲ソフトの場合は、さまざまな理由でレイティング内容が公開されません。商業サービスの場合は知的所有権の保護、という理由がついています。IAJapanの場合、商業的利益は関係ありません。しかし、「ホワイトリスト作りに使われたくない」という口実で、レイティングの一覧が公開されることはありません。また、情報発信者にレイティング内容が伝えられることもありません。

規制内容を秘密にしたまま、「日本を代表するインターネット業界団体」による「有害コンテンツへの対処」、しかも無料ということで、このIAJapanの規制ソフトは、多くの学校や公的機関で採用されるようになっています。これ自体、おそるべきことです。

コントロールを取り戻そう

前節でみたように、情報発信者にとっても、サイト管理者にとっても、透明性と説明に背をむけた検閲ソフトは、困ったものです。しかし、対処する方法はあります。レイティング内容の一覧を閲覧できること、これは透明性という意味では強力なものです。そこで、8月に発表された新システムに対応した、レイティング内容の一覧を入手するプログラムをつくりました。

ラベル取得プログラム

このラベル取得プログラムはFreeBSD用です。Javaがインストールされている必要があります。

ダウンロード

getlabels.tar.gzを取得してください。

インストール

  1. 適当なディレクトリで getlabes.tar.gz を tar で展開してください。getlabels/bin ディレクトリに起動プログラムが用意されます。
  2. getlabels/bin/dumplabel.sh を JAVA_HOME 環境変数が適切な値となるように調整します。

ラベルの取得

  1. ラベルビューロプログラムのインストール時に指定したディレクトリに "Jigsaw" を足したもの、つまりデフォルトであれば "/usr/LB/Jigsaw" を、環境変数 LB_HOME に指定します。
  2. 適切な空き領域(数百Mbytes以上)のある、作業ディレクトリとして利用できるディレクトリに移動します。
  3. getlabels/bin/getlabels.sh を実行します。
  4. ディレクトリ中に、label-generic.csv, label-specific.csvという2つのファイルができています

データの見方

レイティングのラベルデータは label-generic.csv, label-specific.csv という2つのファイルに出力されます。両方とも、最初のコラムが URLから"http://"を除いたもので、次のコラムが評価値です。区切りは "," です。2つのファイルに分けてあるのには次のような意味があります。

label-generic.csv
PICSでいうGenericラベル。ラベルのURLはディレクトリでおわっていて、そのパターンにマッチするURLが全てその評価値となる。ひとつの対象URLについて複数がマッチする場合、より深い階層でマッチしている方の値になる
label-specific.csv
PICSでいうGenericでないラベル。こちらは URLが完全一致する場合のみ。Generic なラベルと Generic でないラベルでは Generic でないほうが優先となる。

ソースコード

getlabels.tar.gzにはJavaのソースコードは含まれていません。別にgetlabel-java-src.tar.gzとして用意しました。

キーワード取得プログラム(2002.8.18追加)

検閲ソフトシステム全体としては、SFS(プロキシサーバ)では PICSのレイティングによるブロックのみではなく、コンテンツ中の文字列でのブロックも行う機能があります。この初期データも公開されないようなので、取得プログラムを用意しました。

このキーワード取得プログラムはUnix系OS用です。Javaがインストールされている必要があります。

ダウンロード

getwords.tar.gzを取得してください。

インストール

  1. 適当なディレクトリで getwords.tar.gz を tar で展開してください。getwords/bin ディレクトリに起動プログラムが用意されます。
  2. getwords/bin/dumpwords.sh を JAVA_HOME 環境変数が適切な値となるように調整します。

キーワードの取得

  1. SFSのインストール時に指定したディレクトリに "Jigsaw" を足したもの、つまりデフォルトであれば "/usr/SFS/Jigsaw" を、環境変数 SFS_HOME に指定します。
  2. 適切な空き領域(10kbytes以上)のある、作業ディレクトリとして利用できるディレクトリに移動します。
  3. getwords/bin/dumpwords.sh を実行します。
  4. ディレクトリ中に exact.csv, partial.csv という2つのファイルができています。

データの見方

禁止キーワードのデータは exact.csv, partial.csv という2つのファイルに出力されます。両方とも1行のみの内容となっていて、単に単語が "," 区切りで並んでいます。

exact.csv のほうは「完全一致」で評価される単語、partial.csv のほうは「部分一致」(この単語を含む文字列全てがブロック対象になる)で評価される単語になります。

ソースコード

ソースコードは getwords.tar.gz に含まれています。このほか、W3Cのサイトから必要なファイルをいくつか取得して利用しています(詳細はアーカイブ中にあります)。


SAKIYAMA Nobuo