情報科学のあれこれ(23)                  

閑話休題 情報の常識って何だろう(その2)

5.意味情報についての常識
    情報の二面性の形式情報と意味情報のうち、前者については情報の常識って何だろう
  (その1)で考察したが、もう一つの意味情報については、情報科学的立場を越えて広
  い見地から考察することが必要である。これについては判りやすい書物を探していたが
  中々見つからなかった。ごく最近参考文献26)の“東大式 絶対情報学”という2006年
  3月22日発行の伊東乾先生の書かれた本が見つかった。この第23編では他の参考文献と
  共に、これを参考にさせて頂いた。そのまま引用させて頂いた所以外は特に明示してい
  ないが、ご了承頂きたい。なお、ここでいう意味情報は特に断らない限り現実の社会の
  ものを対象とし、バーチャルスペースの情報は本章の第7節で別途取り上げる。
(1)人間の脳とコンピュータの違い
      意味情報の取り扱いを考えるに当たって、先ず意味情報を処理する人間の脳とコン
    ピュータの違いを知り、コンピュータを中心とした情報化時代に如何に対応すべきか
    を考えてみよう。前編では人間の思考行為のアナロジーとして、ファジィ情報処理、
    ヒューマノイドロボットの制御、コンピュータ将棋や囲碁ソフトの例を挙げて説明し
    た。しかし、皆さんはやはり何となく人間と違うと感じられたのではないだろうか。
      人間の脳の知能には、新しいことを学び記憶する「記憶力」、記憶により物事を考
    える「応用力」、記憶に基づき将来のことを予想する「想像力」、複雑な選択肢に対
    応する「洞察力」、経験のない新しい環境に対応する「順応力」、善悪を判断する
    「判断力」などの能力がある。これらは相互に連携しており、人間の脳では総合的に
    働いている。
      人間の脳における情報処理方式と、コンピュータにおける処理方式の基本的な違い
    は、人間の脳はニューラルネットワークによるメモリーアーキテクチヤであるのに対
    し、コンピュータはCPU(中央演算処理装置)を中心としたプロセッサアーキテクチ
    ャであることである。コンピュータのプロセッサアーキテクチャでは、プログラムが
    予め用意されていないと何もできない。
      上にあげた前編の例はいずれもコンピュータを使ったものであり、人間の脳の働き
    と違うという違和感はこのアーキテクチャの違いと、更にもう一つ人間の脳にはコン
    ピュータにない情動という機能があることが挙げられると思う。これを理解するため
    に人間の脳の仕組みを見てみよう。
      人間の脳は第3図のようになっているが、前述のような6つの能力の大部分を担当
    しているのは大脳新皮質と小脳と大脳辺縁系である。


  第3図 人間の脳の構造

      大脳は知覚や知能(学習や記憶や思考)や運動の指令などを行っている。それらの
    機能は主に大脳の表面の、厚さ数ミリメートルの大脳新皮質の中にあるニューロンの
    ネットワークで行われている。大脳の中には霊長類である人間のみが持つ言語による
    思考の中心となる前頭葉がある。この前頭葉には創造性、前向きの姿勢、善悪の判断、
    責任感のような人間に特有な優れた行為をする能力があるが、このような能力までは、
    論理的な情報処理しかできない現行のコンピュータでは到底到達できない。
      小脳は姿勢を保ったり、運動をしたり、条件反射を起こす際などでの筋肉の活動の
    制御を行っている。自転車に乗ったり、水泳をしたりするような体が覚える運動記憶
    は、この小脳の働きによるものである。この小脳における記憶は忘れられることはな
    く、何年も自転車に乗らなくても、また水泳をしなくても、できなくなることはない。
      大脳辺縁系といわれる大脳の下部の内側にある部分には第4図に示すような色々な
    器官があり、記憶の制御と共に、喜び、悲しみ、好き、きらい、怒り、気分などの感
    情を司る。


  第4図 大脳辺縁系の諸器官

      この大脳辺縁系の中で、海馬と扁桃核が最も人間の知能や情動との関連が深い。海
    馬は記憶を一時的に保管し、大脳の適当な場所に送って記憶として保存させ、また大
    脳の記憶を取り出す働きをする。扁桃核は視覚や聴覚などの五感の情報が集中して通
    るところで、快、不快、恐怖といった情動反応を起こす脳の部分である。この扁桃核
    を取り除くと、例えば蛇を見てもいやだとか、怖いという感情が起こらなくなり、逃
    げなくなる。また逆においしい食べ物を見ても、食べたいとは思わない。  
      この扁桃核からの出力情報は側座核を経由して大脳の前頭葉へ行く感情回路を作っ
    ている。側座核は刺激するとやる気を起こすので“やる気の脳”とも呼ばれている。
    これらは大脳辺縁系で生まれた感情を大脳へ送って、大脳の機能に影響を及ぼす。例
    えば、振り込め詐欺などで人が恐怖の情報を受けると、扁桃核がストレス情報を側座
    核を通して大脳へ送り、ニューロンのシナプス間隙で信号伝達を媒介する神経伝達物
    質の放出を左右して、正常な判断を阻害する。いわゆるパニック状態を引き起こす。
      現在の脳型コンピュータでは、専ら記憶を中心とした大脳新皮質のニューロンの機
    能を模倣するように開発が進められている。意味情報を考える際には、大脳新皮質の
    機能だけではなく大脳辺縁系の機能についても十分考慮に入れなければならない。

(2)社会情報の流通と対応
      前編の冒頭に述べたように、現在は高度情報化社会であると共に、情報の信頼性が
    問題になっている時代であり、シャノンの情報理論では払拭された情報の段階B、Cの
    問題を考えなければならない時代でもある。(第22編 第3章“情報の全般的な常識”
    参照)意味情報を扱う社会情報学は、社会現象という極めて複雑なものを対象とし、
    個人間のコミュニケーションから、国内外のマスメディアによる情報の生産・伝達、
    組織内や組織間での情報の流通など多岐にわたって取り扱い、社会科学と情報科学を
    融合させる形で研究が進められてきた。しかし、実際の社会情報学の研究は文科系に
    属するものが多いようである。ここではできるだけ文理両面にわたって社会情報学に
    ついて考察して行きたい。
      社会情報学を占める大きな分野の1つとして、情報流通のためのメディアがある。
    メディア(Media)という言葉は、“中間物、媒介物、媒体”を意味するMediumの複
    数形で、「情報科学のあれこれ」第3編の“電子計算機でなぜマルチメディアが扱え
    るのか”の表で説明したが、例としてその後の進展を加えた、第5表のような色々の
    カテゴリに対して使われている。

      第5表 メディアのカテゴリと例示

      
      上表のうち種類や伝送手段におけるメディアは、古代に言葉から文字へ、近世に入
    り文字から電流や電波などのアナログ信号を使ったものへ、さらに電子的なディジタ
    ル信号を使ったものへと進歩してきた。これらの課程に於いては、会話のような双方
    向のコミュニケーションだけでなく、マスコミュニケーションのように一方方向の情
    報の流れも多くみられるようになった。またコミュニケーションもマルチメディアで
    行われるようになり、数多くのメディアを取り扱うために、メディアリテラシの習得
    が必要となった。メディアリテラシとは水越先生によれば、“メディアの受容能力”
    と“メディアの表現能力”と“メディアの使用能力”を備えることであり、これを掘
    り下げて整理すると“人間がメディアに媒介された情報を、送り手によって構成され
    たものとして批判的に受容し解釈すると同時に、自らの思想や意見、感じている事な
    どをメディアによって構成的に表現し、コミュニケーションの回路を生み出していく
    という複合的な能力”であるとされている。
      メディアには第5表のカテゴリ別分類以外に、性格的な分類として能動的なメディ
    アと受動的なメディアとがある。これは伊東乾先生の本にも書かれていることである
    が、能動的メディアとは、識字能力を使って能動的に取りにいって情報が得られるも
    ので、新聞や書籍などがこれに当たる。これに対し受動的メディアとは、ラジオやテ
    レビや映画やインターネットの動画配信のように識字能力を必要とせず情報を受け取
    ることができるものを言う。
      人類は識字能力を持つことによって、言葉の意味を吟味するようになった。日本語
    の場合でも同じ発音の言葉が多数あり、言葉を聞いた時には、どの漢字の意味に当て
    はまるかを無意識的に絶えず考えている。例えば、“ニワニハ、ニワのニワとりがい
    る”のような言葉を聞いた時などである。それに対して文章を読む場合は当てはまる
    文字を考える必要がない。それだけに文章では内容を吟味する余裕がある。能動的メ
    ディアと受動的メディアの性格の違いで大切なことは、情報の受け手が意識的に情報
    を受け入れるか、意識する前に情報が入ってくるかということである。勿論前者が能
    動的メディアによるもので、後者が受動的メディアによるものである。我々が経験す
    る所では、本は読みながら内容を評価して、これはつまらないとか、この部分は大切
    なことが書いてあるなど、印をつけたりして読むのに対し、テレビでは情報が勝手に
    飛び込んでくるので、吟味する暇もなく次の情報に対応しなければならない。この場
    合に同じ情報が何回も繰り返えし入ってくると、本当のように思い込むマインド・コ
    ントロールが起こる。マインド・コントロールとは薬物によらず精神状態をコントロ
    ールすることで、例として程度は軽いが、テレビで同じコマーシャルを繰り返し何度
    も見ることによって親近感ができて、何か他のものより良いような気がして、それを
    選ぶようになるのと同じ状態である。それに対して新聞の広告などは、“ああ、また
    か”と読まずに飛ばされてしまう。しかし、内容をじっくり検討しようとするときは、
    新聞の広告を読むことになる。

(3)情報を受信・発信するに当たっての基本的常識
      日本人には識字能力のない人はまずいない。小学校の上級生になると誰でも新聞位
    は読めるようになる。しかし、読めるからと言って内容を正しく理解しているとは限
    らない。これは程度の差はあれ、大人でも同様である。情報の本質を「認知・観測す
    る知的反射神経」として、伊東乾先生は「絶対情報感」というものを提唱されている。
    先生は東大の音楽実技の教官で、ご専門は音楽の指揮、作曲であり、絶対情報感は音
    楽の絶対音感に対応するもののようである。
      あらゆる文章には、「私」か「あなた」か「それ以外」かの主語があるように、情
    報を認知・観測する知的反射神経にも「第1人称性情報感」と「第2人称性情報感」
    と「第3人称性情報感」があると先生は言われている。
      私は伊東先生のように絶対音感やソルフェージュのような音楽の素養を身につける
    教育を受けていないので、先生が楽団の指揮の際経験された、楽団員にどのような演
    奏をさせるかという指揮者(第1人称者)としての気配りや、楽団員の演奏状況にど
    のように対応するかという楽団員(第2人称者)の立場に立った気配りや、聴衆(第
    3人称者)にどのようにこの演奏を聞かせるかという気配りを基に説明されている次
    のような表現は、多少判りにくい。
      「第1人称性情報感」は、情報対象の全体像へ開かれた強い予感と確信、実行の感
    覚である。
      「第2人称性情報感」は、多様な情報通信課程での主客関係の自在な転倒感覚であ
    る。    
      「第3人称性情報感」は、情報過程を遂行する自分自身を含む全体像の客観的把握
    の感覚である。 
      この情報の受発信者の感覚として説明されておられる内容を、伊東先生の説明を参
    考に私なりに解釈して記すと次のようになるであろうか。
      「第1人称性情報感」は、目的を明確化し、先入観にとらわれることなく集中して
    取り組むという、「1人称」としての知的反射神経的感覚である。
      「第2人称性情報感」は、情報を受発信する相手の様子を見ることによって、相手
    に情報をうまく伝えるのだという反射的なおもいやりの感覚である。
      「第3人称性情報感」は、自分自身を含めた情報に関わる人々の全体像を、客観的
    に感知する反射神経的感覚である。
      この絶対情報感のトレーニングの仕方は伊東先生の本(参考文献 26)を見て頂く
    として、私はこの観点を参考にさせて頂いて、伊東先生が本のタイトルを「絶対情報
    感」ではなく「絶対情報学」と名づけられているように、多少俗っぽくなるが情報を
    発信者や、受信者や、関係する第三者から見たときの、認識や判断という立場からと
    らえて、「第1人称的情報観」、「第2人称的情報観」、「第3人称的情報観」とい
    う言葉に置き換えて考えてみた。ただし、ここにおける「第2人称的情報観」は、受
    信者が発信者の情報をそのまま受け入れた場合の情報の受け取り方であり、また「第
    3人称的情報観」は、第3人称者が正しく判断したとき、第2人称者がどのような状
    態に置かれていると見るかを示すものである。
      このような考えに立って、第22編の第2章に挙げた情報が伝達される6通りのレベ
    ルを整理してみると、第6表のようになる。第22編を発信した時は、伊東先生の「絶
    対情報学」を読む前であったが、今回読んだ後でこのように整理してみると、第6表
    のように各ケースの違いが明確になった。

      第6表 情報が伝達されるときの真偽の関係

                    
      第6表のような各レベルの情報の伝達は、実際には@のケースが最も多いのである
    が、情報の真偽を正しく判断することを常に心掛けねばならない。それには自分自身
    も客観視できる「第3人称的情報観」を反射的に行えるようにすることが必要である。

(4)意味情報の信頼性とその判断
      最近ではネットワーク社会の発達により、情報源が匿名化された情報や、情報源が
    分からないコピーアンドペーストの情報が氾濫するようになった。ブログの世界では
    ゴシップ情報やうわさ話があっという間に拡がってしまう。その一方、匿名であるが
    故になやみを打ち明けたりする親密性が増加するという現象も見られる。また従来は
    困難であった個人の意見を表明する機会が、記名、匿名に関わらず増えたという利点
    もある。それらを利用してブログで世論の動向を察知することもできるそうである。
      しかし、冒頭述べたようなマイナス面が大きな被害を及ぼすようになり、情報の信
    頼性に関するメディアリテラシの在り方が真剣に取り上げられるようになった。ただ
    し、ここで言う信頼性は、情報セキュリティの一つの要素であるreliability(「情
    報科学のあれこれ」第18編“不完全な情報などをいかに使うか”の第2表参照)とは
    異なり、情報の持つ意味内容の信頼性である。
      参考文献37)の「99.9%は仮説 思いこみで判断しないための考え方」という本を
    読んでみると、我々は如何に考えを詰めていないか、根拠のはっきりしないままに思
    い込んでいるかを思い知らされる。
      世の中には、第6表のように信頼のおけない種類の情報も多い。インターネットで
    検索して得られる情報は殆どゴミの情報であるとまで言われる先生もある。私はそこ
    までは思えず参考にしているが、常に複数の情報を照らし合わせてみることを心がけ
    ている。
      このように情報の信頼性を高めることを発信者に期待するには限度があり、受信者
    がメディア特に受動的メディアに対するアプリシエーション能力を研ぎ澄まして、正
    しく評価できるようにすることしかないように思う。アプリシエーションとはプレゼ
    ンテーションに対するもので、プレゼンテーションを受け止めて評価することである。   
      では信頼性を判断して、正しい情報を選択するにはどうすればよいのだろうか。そ
    れには多くの知識を身につけて評価能力を高めるしかない。そのために必要なのが速
    読術であろう。伊東先生によれば、東大の駒場での全学必修、文理共通の「情報」の
    授業で速読術の勉強をさせるとのことである。私も情報科学の勉強をするに当たって、
    どの位手持ちの本を読んだかを調べてみた。図書館から借りて読んだ本も多いが、こ
    れについてははっきりした記録がない。従って先ず手持ちの本と学会誌などについて
    調べてみた。一応一般の文芸書を除き、情報科学関連の本などは約1400冊ある。これ
    を情報科学の勉強を本格的に始めてからの年数10年で割ると、平均年間140冊月に10
    冊強を購入し読んだことになる。しかし、意識的に速読したという記憶はなく、本の
    タイトルを見ても内容を具体的に思い出せるものは少ない。しかし、問題にぶつかっ
    たとき本のタイトルを眺めていると、この本とこの本を見ればよいのではないだろう
    かという勘は働くようである。私の経験ではこのようにして、正確な判断ができる素
    養を身につけることができるようになると思う。
      信頼性の問題で、もう一つ考えなければならない重要なことがある。それは世論と
    いうものである。世論が民意を表わすということは論理的には正しいが、変動も大き
    く、それがどのような民意であるかが問題である。世論誘導という言葉があるように、
    世論はマインド・コントロールによって、恣意的に変えることができる。太平洋戦争
    が始まった昭和16年12月8日には日本国民の大多数が本気で、緒戦の勝利に対して歓
    呼の声を挙げたことを記憶している方もおられるであろう。その時私は小学6年生で
    あったが、周りの大人の人と共に心から喜んだ記憶がある。
      この世論による民意の反映の一つに選挙の投票行為がある。往々にして政治信念や
    政治的能力のはっきりしない人気タレントなどが当選することがある。このような民
    意が本当に全体のことを考えて表明された民意であるとは考えにくい。その他世論調
    査と称するアンケート結果も質問の仕方で結果が大きく変ることはよく知られている。
    さすがに最近は表面的な民意そのものではなく、“民意の動向を踏まえて”とか、
    “国民の理解を得る”などという表現が多くなった。

(5)社会情報の取り扱いに関する規制
   今までは情報を知るにはどうすればよいかを考えてきた。しかし現在は不正情報の
    問題だけではなく、正しい社会情報の取り扱いについても、色々な規制がある。それ
    は個人情報の保護だけではなく、インサイダー取引の禁止に代表される問題である。
    これは情報を知ったことがかえってマイナスになるケースである。
      株式等の取引において、特別の重要事実の情報を何も知らずに儲ければ成功である
    が、一部の人しか知らない特別の情報を知って、その情報が公開される前に株取引を
    して儲ければ、インサイダー取引として罪に問われる。特別の情報を知りうる立場に
    ある当事者は別として、その他の関係者が特別の情報を知ったことの証明や、逆に知
    らなかったことの証明は極めて難しい。これに対しては、証券取引法166条で詳しく
    規定されている。ごく概要を説明すれば、“上場会社等に係る業務等に関する重要事
    項を、職務に関し知った役員や従業者やその他の関係者は、その重要事項が公表され
    るまでは株式等の取引をしてはならない”というものである。この重要事項には会社
    や株式の状態の変更(例えば合併、営業譲渡、株式の発行など)等があるが、その他
    に情報を扱う者として注意すべき次のような点がある。
    ・新製品又は新技術の企業化
    ・災害に起因する損害や業務の遂行の過程で生じた損害等
    ・主要株主(政令によれば発行済みの株式の5%以上を所有する株主)の異動
    ・売上高や利益などについて公表された直近の決算予想値と、決算値との差異
    ・その他重要事項に順ずる事項として政令で定める事項
      今新聞やテレビで報道されている村上ファンドの村上世彰氏の場合は、ライブドア
    がニッポン放送株を買い集めて5%以上の株式を所有したという、主要株主の異動が
    あることを知った上で、公表前にニッポン放送株を買い集め、高値で売り抜けたとい
    うインサイダー取引の疑いか、或いは証券取引法158条の風説の流布・偽計取引か、
    または同157条の不正取引を禁じた包括規定違反の疑いで、証券取引法に触れると専
    門家の間では見られていたが、起訴はインサイダー取引による証券取引法違反の容疑
    でなされた。
      これらの規制は、すべての株主が同等の条件で株式の取引をできるようにすること
    を担保するためのものである。
   
(6)意味情報を取り扱うための様々な工夫
      社会情報学を占めるもう1つの分野として、コンピュータによる意味情報の取り扱
    い技術がある。これには、@データベース操作言語を始め、A言語処理技術、Bオン
    トロジ技術などがある。次にこれらについて概括しよう。ただし、この領域はまだ研
    究中で難しい問題も多い。従って常識としては知らなければならないが、結論的な説
    明をできない所も多いことを予めお断りしておく。
    1)データベース操作言語
        現在データベースの中心的存在として多く使われている、リレーショナル・デー
      タベースのようなありふれた2次元の表が、なぜデータベースとして有用なのかは、
      私にとって永年の疑問であった。データベースとは、データを効率的に利用する目
      的を持って集積したデータの基地(ベース)であるが、ただ集めただけでは意味が
      なく、必要なデータを確実に、速く、手間がかからないように取り出せると共に、
      常に新しいデータに容易に、間違いなく、更新できるようにすることが必要である。
      必要なデータは、例えばある学生の数学や英語の成績のような意味をもつデータの
      集まりであり、データベースは形式情報の世界に意味情報を持ち込んだものといえ
      る。
    2次元の表形式のリレーショナル・データベースは色々な利用目的に対して適応
      性や汎用性を持たせるため、データの意味的表現を極度に簡素化すると共に、複数
      の表から必要なデータを取り出せるようにしたものである。それは、第7表の“学
      生のデータベース1”と名づけた2次元の表のように、縦方向の列には属性として
      各事物の同じ種類のデータを書き込むようにし、横方向の行、即ち組にはある事物
      のもつ意味のある色々なデータを属性に応じて書き込むようにしたものである。こ
      うすることにより、例えば第7表の92という数字は、単なる数字を示すデータでは
      なく、上野太郎という学生の英語の成績という2つの意味をもつデータとなる。即
      ち、縦横の交点には2つの意味をもつデータが入ることになる。これが“データの
      意味的表現を極度に簡素化した”という意味である。

        第7表 リレーショナル・データベースの例


        このような表を更に色々な属性についてデータベースとして作れば、第4表のよ
      うに氏名と所属学科と数学と英語の成績という4種類の意味のあるデータに加えて、
      更に多くの種類のデータを取り扱うことができ、その上表面的には見えない意味の
      あるデータ、例えば各学生の総合点や成績順位などのデータを求めることができる。
      表の数や属性の数を多くしたリレーショナル・データベースでは、その他にも色々
      なデータの引き出し方ができる。そのためSQL(Structured Query Language)とい
      う標準化されたデータベース操作言語が開発され提供されている。SQLを文字通り
      訳すと“構造化された問い合わせ言語”ということになるが、SQLには問い合わせ
      機能だけではなく、定義機能やデータ管理機能などがあり、広い意味でデータベー
      スを操作する言語である。このSQLは非手続き型言語といわれるもので、定型化さ
      れた自然言語SELECTなどという意味を持った言葉を、バイナリーコードの機械語に
      変換してコンピュータに処理を行わせるものである。その意味でコンピュータが
      言語(符号化されたものであるが)を理解していると言える。
        このSQLの問い合わせ機能の一例を示すと、第7表のような“学生のデータベー
      ス1”というリレーション(関係表)から数学の成績が80点以上の学生の氏名を求
      めるには次のように入力する。
          “SELECT 学生の氏名 ,数学の成績 FROM 学生のデータベース1 
          WHERE 数学の成績≧80“
      これを実行すると第8表のような結果が得られる。


    第8表 問い合わせ結果の表示
    
        複数の表から必要なデータを求めるには各表のキーを用いて関係を付けるが、こ
      れらを含めたSQLの実用的な使い方については、次編の第6章の「意味情報の実用
      面での常識」で更に説明する。

    2)言語処理技術
        マルチメディア時代になっても、社会情報中の意味情報の多くは自然言語情報で
      ある。以下特に断らない限り自然を省き単に言語と書く。「言語処理」という言葉
      は色々な範疇で使われるが、文章の解析、即ち構文解析、意味解析や、文書をうま
      く利用するための文書処理などがある。
        言語は全世界で6700種以上あると言われており、言語ごとの解析技術となると膨
      大な量となる。しかし、我々の眼に触れる主要なものは日本語を始め、英、仏、独、
      露、中国、韓国、スペイン語などであろう。これらの言語の解析技術などを応用し
      たものとしては、コンピュータによる機械翻訳、文書要約や分類、日本語ではカナ
      漢字変換、音声認識などがある。次にこれらを見てみよう。
      a. 機械翻訳技術
          言語処理技術の要素技術である構文解析技術や意味解析技術を知るため、具体
        的な事例として機械翻訳を取り上げて考えてみよう。最近は機械翻訳ソフトの性
        能も良くなり、かつ安価となりまたフリーソフトも流通するように。この
        ようなことが可能になったのは何によるのであろうか。
          1990年頃の機械翻訳技術は、大型コンピュータやUNIXマシン使って行われてお
        り、操作性が悪く翻訳の品質も良くなかった。機械翻訳の基本技術は形態素解析
        技術と構文解析技術と意味解析技術であるが、形態素解析技術とは構成している
        語の品詞を認定する技術で、構文解析技術とは主語や目的語などを認定する技術
        である。また意味解析技術はまだレベルとしては不十分であるが、訳語を文脈に
        より選定する技術である。機械翻訳はこれらの技術を使い、概念的に第5図のよ
        うに行われる。


           第5図 機械翻訳のプロセス

          機械翻訳の際原語に対する翻訳語の字句を選ぶに当たっては、翻訳文が正しい
        文脈を示すようになっていることが必要である。例えば、
          I looked at ○○○ with the telescope.
        という文章の場合、○○○に何が入るかで、“私は望遠鏡を持った○○○を見た”
        となるか、“私は望遠鏡で○○○を見た”になるかが決まる。○○○が“the boy”
        であれば、両方とも正しい文章になる。しかし、○○○が“the dog”であれば
        前者の訳は誤りで後者の訳にしなければならない。このような連鎖情報をルール
        化してデータベースを構築することができれば翻訳の品質が向上することになる。
          今日ではオンラインでの機械翻訳も常識になりつつある。これはインターネッ
        トで海外の情報を受信した場合、それを日本語に翻訳して表示させるときなどに
        使用される。この機能は各社の検索エンジンについているが、例えばGoogleの場
        合は言語ツールという機能を使って世界の主要国の言葉に対して、それぞれの原
        語と翻訳語の組み合わせで翻訳することができる。また直接翻訳文で見ることも
        できるWebサイトもある。そのようなWebサイトには「このページを訳すBETA」
        などとという記述がついている。
          ちなみに、前述の英文を言語ツールで翻訳してみると、“the boy”の場合は
        “私は望遠鏡を持つ男の子を見た”となるが、“the dog”の場合も同じく“私
        は望遠鏡を持つ犬を見た”となる。
          また最初に日本語の“私は望遠鏡で男の子を見た”という文章を英語に翻訳し、
        その英語訳の“I looked at the boy with the telescope.”を再度日本語に翻
        訳すると“私は望遠鏡を持つ男の子を見た”と最初と違う文章となる。このよう
        に微妙な連鎖情報をルール化することは中々難しいが、最近は実用化に差し支え
        ない程度にまで整備されてきた。
          最近はパソコンの性能が向上して、パソコンでも機械翻訳のソフトが使えるよ
        うになり、インターネットで情報の流通がグローバル化されるに従って、機械翻
        訳のソフトの普及と低価格化が促進されてきた。

      b.  文書処理技術
          文書処理技術の対象にはハードウエアとしての本や報告書などと、ディジタル
        データ化されたソフトウエアとしてのワープロの文書などがある。最近は報告書
        や本の原稿などもワープロで書かれることが多く、元をたどれば多くの文書がデ
        ィジタルデータ化されてきている。また電子図書館などが設置され、書籍のディ
        ジタルデータ化が進められている。それに伴ってコンピュータによる文書処理技
        術が色々開発されてきた。
          最近は情報が洪水のように押し寄せてくる。いかに速読術を身に付けてもすべ
        ての情報、特に文書にまとめられた情報にすべて目を通すことは不可能である。
        これらの大量の文書を処理する技術には、ユーザの必要とする文書を見つける検
        索技術、文書から重要なまたは必要な情報を取り出す抽出技術、重要な情報のみ
        を取り出し要点の迅速な把握を支援する要約技術、文書を重要な項目ごとに分類
        して、全般的な情報を得ることができるようにする分類技術等がある。そこでは
        機械翻訳技術で説明した形態素解析技術や構文解析技術や意味解析技術を基本技
        術として、それぞれに必要な固有技術の開発が進められている。
        イ)情報抽出技術
            情報抽出技術は非構造的な文書の中から、特定のテーマの情報を構造化され
          た形で抽出する技術である。例えば、新聞の人事消息についての情報を抽出し
          て、所属名と氏名と役職名と異動日付などにについて、表形式のデータの形で
          表示するものである。これはWebデータに対してはWebラッパーという技術があ
          る。これは類型的な文書から抽出項目を決めてコンピュータによって内容を抽
          出する技術であるが、まだ研究段階であり身近で汎用的に使用する所までには
          至っていない。しかし、特定の情報、例えばWeb上の製品情報を抽出して提供
          するサービスなどは、Googleのfroogle等で行われている。

        ロ)文書要約技術
            文書要約技術は人が行うレベルからコンピュータが行うレベルまで色々ある
          が、これには指示的要約と報知的要約の2種類がある。指示的要約とは原文を
          読むか否かの判断をする指針となるような要約である。従って原文の情報を漏
          れなく要約文に盛り込む必要はなく、内容を知る必要があれば原文を読むこと
          を前提としている。
            これに対して報知的要約は、原文に含まれる情報を可能な限り含んだ要約で
          ある。これは原文を読まなくてもその文書の内容をある程度知ることができる
          ものである。これには種々の要約率のものがあり、一般には長さで30%以下に
          なることを目標としているようであるが、国会の議事録ではすべての発言を記
          録した原文に対し、冗長な表現を除いた長さで80%程度の要約が作られている。
          人が行う文書要約は一般に指示的要約が多く、抄録や抜粋や要旨作りやキーワ
          ードの付与がある。この例として科学技術文献速報や、特許電子図書館のFタ
          ームなどがある。これらについては内容の説明は省略するが、それぞれの専門
          家が文書を読んで、前者では外国語の場合は翻訳して、決められた字数以内で
          抄録を作る。後者では予め分野別に定められたFタームというキーワードの中
          から、決められた個数以内でいくつかを選んで、特許公報などに付与する。従
          ってこれらの作業は従事する人のキャリアに負うところが多く、また多大の労
          力を必要とする。そのため日々発生するすべての情報や文書について実施する
          ことは不可能である。
            これに対して、コンピュータによって自動要約できれば文書処理において大
          きな進歩となる。自動テキスト要約技術は日々進歩しており、それを遅滞なく
          説明することは困難なので、その原理的なところだけを説明する。自動要約技
          術は1990年頃より活発に研究されるようになったが、伝統的にその中心的技術
          となっているのは重要な文を抽出するという技術である。重要な文の選定方法
          としては
     ・単語の出現頻度によるもの
     ・文章が文書中のどこにあるかという位置情報を利用したもの
     ・接続語、例えば“つまり”や”結論として”などという接続語等の後の文
          などがある。
            これについて更に知りたい方は、参考Webサイトをご覧下さい。また日本語
          の文書の要約ソフトとして、望月源先生の簡易要約器Posumを紹介しておく。
          ソフトとしては若干古いが、入力した文書を箇条書きにして、その中の重要な
          ものを要約文として採用するものである。実際の要約を経験できるので、うま
          く要約されるか否か、またうまく要約される文章の書き方などを勉強すること
          ができる。

        ハ)文書分類技術
            一般に文書分類は、組織内で部門別やテーマ別に文書を分類保管することを
          言う場合が多い。しかし、これでは部外者や、組織の中にいても複数の部門や
          複数のテーマにまたがる文書を漏れなく見つけることは難しい。本の分類がき
          っちり行われている図書館の場合でも、例えば“心”について書かれている全
          ての本を、図書館で使用されている日本10進分類法で探そうとすると、ざっと
          思いつくだけでも、心理学の分野、認知科学の分野、脳科学の分野、人工知能
          の分野、哲学の分野などを見る必要があり相当難しい。
            ディジタルデータ化された文書の場合は、Webサイトの情報検索などを見て
          分かるように、全文検索をすることができるので、単に情報を見つけるための
          文書の分類は意味がない。しかし、検索結果は一般に膨大な量となり、その中
          から目的に合う重要な文書を漏れなく見つけることはかなり難しい。大量の文
          書から任意の質問に答えられるような技術があれば、文書分類の機能を補完す
          るものとして重要であろう。この技術は質問文を解析することから始まるが、
          先ず質問文から回答として求める項目を抽出し、次にその項目に対応した情報
          を対象の文書から探し出すことになる。質問文にある複数の項目の回答は1つ
          の文書にあるとは限らないので、複数の文書から必要な情報を探し出し、それ
          を構造化された情報にまとめて提供する必要がある。このような回答を引き出
          すための質問事項の抽出、これは固有表現抽出といわれるが、これは前述の情
          報抽出技術によって行われる。質問に対する回答を見つけるには、抽出された
          固有表現を用いて、対象とする文書の全文検索を行い、その中から回答候補の
          絞込みを行う。
            例えば、“サッカーのワールドカップの06年ドイツ大会に出場するチームは
          どこですか”という質問に対する回答を今年の新聞記事から求めるような場合
          である。この場合、固有表現は、“ワールドカップ”と“ドイツ大会”と“出
          場チーム”になるであろうか。しかし、我々が本当に知りたいのは、“サッカ
          ーのワールドカップの06年ドイツ大会に出場するチームで、日本と1次リーグ
          で戦うことになったチームは、地区予選においてどのチームと対戦し、どのよ
          うな戦い方をしてきたのか”というようなものである。このような質問に対し
          ては、人間が対応しても回答をすばやく得ることは困難であろう。この作業を
          コンピュータにさせるには、段階的に日本チームが1次リーグでどの組に入っ
          たかを求め、F組の出場チームを求め、そのチームが戦った地区予選を求め、
          などと質問と回答を重ねることになるのであろう。その際一般に、whatやwho
          の質問に対しては回答を求めやすいが、whyの質問には適切な回答は得にくい
          ようである。
            これに対しハードウエアの文書分類技術は、保管場所がわかりやすいように
          管理すると共に、必要な情報のありかを、情報抽出技術などを応用した固有表
          現を使って容易に調べることができるようにすることである。この場合、広域
          にわたる文書を対象とすることは現実的ではなく、1組織内や1業界内、また
          は個人ないし複数の人の範囲で行うのが現実的であろう。
            身近な問題として、例えば私の所有する本や文献のコピーから、目的とする
          情報を探し出し易いように分類するにはどうすればよいのであろうか。これは
          ある意味では私的なデータベースづくりであるが、前述の抽出技術の考え方を
          参考にして文書を要約し、必要な情報を効率よく知るための固有表現を選定し
          て、メインの固有表現に従って文書を分類整理して、問題発生の都度、必要な
          固有表現を使ってコンピュータで関係する文書を特定することができるように
          することであろう。
            実際これを計画して実行してみると、具体的な問題点が色々判明し、文書処
          理技術について勉強させられるところが多い。例えば、固有表現として目次に
          出ている単語を使った場合、概念の非常に広い言葉があり、そのような固有表
          現では殆どの文書が該当することになる。逆に概念の狭い固有表現を採用する
          と、数限りなく固有表現が増えてしまう。適当な範囲を示す固有表現を選定す
          ることは中々難しい。

        ニ)文書の形式的な正確性について
            意味情報を取り扱うため文章の意味を解析する場合、その文章が文法的かつ
          論理的に正しいものになっていなければならない。文章を文法的に解析する技
          術としては、形態素解析と構文解析があり、これらは機械翻訳技術で説明した。
          社会情報でもう一つ大切な文章の論理的な正しさについては、裁判の判決文で
          色々研究されたものがある。判決文では事実認定に基づき、法律と社会通念や
          慣行によって論理的な判断結果が示される。これの例を調べてみると、事実認
          定に疑義のない事案についての最高裁大法廷の判決でも、多数意見に対して少
          数意見が付いていることがある。これは論理的判断が1つだけではないことを
          意味する。
            このように論理的な文章を一義的に解釈することも、現実には中々難しいこ
          とが判る。

      c. カナ漢字変換技術
          これはワープロで日常的に使われているものであるから、今更説明するまでも
        ないが、漢字は表意文字である上に、同じ発音の漢字が多数あり、熟語について
        も同様である。そのためカナ漢字変換辞書から文字列を呼び出して選定する場合、
        コンピュータでは文脈からある程度は絞り込むことができても、最終的には人に
        よる選択が必要である。これに対し、表音文字を使う英語などではアルファベッ
        トを打ち込むだけでよい。しかし、スペルに間違いがあると正確な文意が伝わら
        ないことがあるので、それをチェックするため、スペルチェッカーが開発されて
        いる。しかし、間違って打ち込んだスペルが別の意味の正しい単語であった場合、
        意味内容の誤りまではチェックしてくれない。

      d. 音声認識技術
          音声を認識して、実時間で音声の意味を理解し文字に変換できれば難聴者の生
        活に役立ち、また前述の機械翻訳技術と組み合わせれば、同時通訳も可能となる。
        しかし、日本語の音声には同音異語があるので、カーナビでの音声入力のような
        定型的な文章の音声以外は、カナ漢字変換技術で述べたように人間の介入なしで
        は難しい。

    3)オントロジ技術
        「オントロジ」とは、もともと哲学の用語で存在論や認識論に当たるものであり、
      情報科学でのオントロジ技術も広い意味での言語処理技術である。しかし、あまり
      馴染みのない言葉なので特に別に取り上げた。情報科学でのオントロジについては、
      辞書的オントロジや情報学的オントロジが開発されてきた。これらのオントロジに
      ついては、「情報科学のあれこれ」の第15編“セマンティックWebサービス”や17
      編“意味内容をもつ情報の正しい使い方(その1)”でも触れたが、そのときの説
      明をそのまま引用すると、辞書的オントロジとは、“それぞれの語彙の体系とその
      背景にある概念などが、知識全体の中でどこに位置づけられているかを明らかにす
      ること”である。もっと平易に言うと、“概念間の関係の明確な定義の集まり”や
      大雑把になるが、“業界などの中で語彙間の関係を明確化して、類義語や同義語を
      まとめたもの”ということになる。これによって異なるコンテンツ間でも用語の相
      互交換が可能となり、1つのアクセス要求で総合的サービスが受けられるようにな
      る。
        これに対し情報学的オントロジは、第6図のように記録アルゴリズム、情報アル
      ゴリズム、知識アルゴリズムを含む人間の知識創生の全般について考察するもので
      ある。コンピュータの中では記録はビット列でなされているが、情報や知識の段階
      では人間に理解できるように自然言語でなされている。下の段階では意味を持った
      情報や知識となっているわけであるから、上のビット列による記録の段階でも意味
      を持っていると考えるべきであろう。従って記録段階で意味についての処理ができ
      る何らかのアルゴリズムを完成させることができれば、コンピュータでビット列で
      はあるが意味を持つ情報のデータでも、自律的に処理できるはずである。SQLのよ
      うな非手続き型言語はこれの一端を担っていると言えるのではないだろうか。


    第6図 情報学的オントロジ

(7)バーチャルスペースの情報について
      バーチャルという言葉が情報科学や情報技術で使われるようになったのは、コンピ
    ュータ技術の長足な進歩によって、コンピュータグラフィックス技術が発達し、バー
    チャル・リアリティー(Virtual Reality)の実現が可能となった時からであると思
    われる。バーチャル・リアリティーは仮想現実と訳されるが、内容的には人工現実感
    であり、自然科学に関するものとしては、コンピュータ・シミュレーションなどがあ
    り、社会情報としては見かけや形は現物そのものではないが、本質や効果は現物と同
    じものをいう。
      自然科学の世界では、実験などが困難な問題に対する新しい科学的な解決法として
    バーチャル・リアリティーを利用したサイエンティフィックビジュアライゼーション
    によるシミュレーション技術などが開発され、数値計算力学(例えば計算流体力学)
    などが成果を挙げている。一方、実社会で実用化されているものとしては、例えば
    バーチャルモールやバーチャルマネーやアニメーションを使った商品などがあり、楽
    天市場やアマゾンのようなバーチャルモールや、コンピュータゲームのスポーツゲー
    ムやレースゲームや対戦型格闘ゲームやシューティングゲームなどがある。
   コンピュータが文字だけで意味のある情報を提供していた時代は、書物の時代と余
    り変らなかったが、バーチャル・リアリティーを利用したアニメーションによって人
    々に情報を提供するようになると、今までにない影響をそれらの人に及ぼすようにな
    った。それは単純なアニメーションから始まったが、インタラクティブに人がコンピ
    ュータのバーチャル・リアリティーの中に入り込めるようになると、それに影響され
    た人によるコンピュータゲームをまねた犯罪が多発するようになった。これは根の深
    い問題であり数ページの説明ですむような問題ではないが、私なりに要約して説明す
    ると次のようである。なおここで言うゲームは情報科学でゲームの理論として取り上
    げられているゲームではなく、エンタテイメントとしてのゲームである。
   コンピュータゲームでユーザがゲームの中の主人公として入り込んで、色々なアク
    ションをすることができるようになると、バーチャルな世界であっても実世界と同じ
    ようにアクションのトレーニングができる。例えば、殺人を伴うようなゲームでは、
    殺人のトレーニングを積んだり、ヒントを得たりすることができる。
   このようなことはコンピュータゲームのみではなく、新兵の射撃訓練でも利用され
    ている。以前は訓練用標的として黒い的を使っていたが、この場合は実際の戦闘で人
    に向かって発砲して撃ち殺すことに抵抗を覚える兵士が少なくなかったとのことであ
    る。この標的を動く人間のシルエットに変えて射撃訓練をしたところ、敵を見た瞬間
    にためらい無く発砲できるようになったそうである。これはホークランド戦争で英国
    兵とアルゼンチンの兵士との間で発砲率に大きな差異があったことで証明された。イ
    ラク戦争でも誤射が絶えないのは、このような訓練を受けた兵士が派遣されているか
    らであるとも言われている。
      このような影響もあって、最近ではコンピュータゲームをまねた犯罪のように、バ
    ーチャルな世界と現実の世界との見分けがつかない若年者が犯す犯罪が多発し問題と
    なっている。これは前頭葉の発達した大人では、バーチャルな世界の異常な感覚は架
    空のものとして抑えることができるのに対し、前頭葉が発達中の若年者では刷り込み
    が激しいので、長時間ゲームをすることによって、正常な善悪などの感覚を会得する
    時間が失われ、逆にバーチャルな世界の異常な感覚が刷り込まれて、現実の行動に結
    び付けてしまうと考えられている。コンピュータゲームによる影響ほどでなくても、
    長時間のテレビ、ビデオなどの映像メディアの視聴の影響も無視できない。
      これらは重大な問題なので、参考文献46)の“脳内汚染”などを読まれることをお
    薦めする。それでは、“ゲーム中毒になり易いタイプと危険因子の影響”などがデー
    タに基づき説明されている。

参考文献
1)河合敏男、「欠陥住宅」は、なぜつくられるのか、岩波書店、2005
2)細野透、耐震偽装 何故誰も見抜けなかったのか、日本経済新聞社、2006
3)立花隆他、新世紀ディジタル講義、新潮社、2000
4)中島秀人、日本の科学/技術はどこへいくのか、岩波書店、2006
5)大友詔雄他、情報の科学、桑園学園 情報科学センター、1989
6)市川忠男、シャノン・ノイマン・ディジタル世界、森北出版、2005
7)小野厚夫、川口正昭、情報科学概論、培風館、1988
8)安富歩、複雑さを生きる−やわらかな制御、岩波書店、2006 
9)山川烈、FUZZY コンピュータの発想、講談社、1992
10)谷萩孝嗣編著、萩原将文、山口亨、ニューラルネットワークとファジィ信号処理、
                          コロナ社、1998
11)中易秀敏、坪野博宣他、情報科学−ヒューマン編、共立出版、2004
12)中易秀敏、坪野博宣、情報科学−基礎編、共立出版、2005
13)中易秀敏、坪野博宣他、情報科学−活用編、共立出版、2000
14)新井健生、図解雑学 ロボット、ナツメ社、2005
15)坂井田勝仁、ロボットのしくみ、日本実業出版社、2001
16)石田晴久監修、鴨志田秀樹編著、ロボットの現在と未来、エクスメディア、2005
17)森山和道、QRIOの技術を探る、ロボコンマガジンNo.43、2005
18)松原仁、将棋とコンピュータ、共立出版、1996
19)コンピュータ囲碁フォーラム編、清慎一他、コンピュータ囲碁の入門、
                                               共立出版、2005
20)金子勇著、アスキー書籍編集部編、Winnyの技術、アスキー、2005
21)一条真人、最新パソコン危機管理ハンドブック、技術評論社、2006
22)情報処理学会編、情報社会における脆弱性にかかわる研究動向、
                   情報処理学会誌 Vol.46 No.6、2005
23)佐古和江他、セキュリティとプライバシーを両立させる匿名認証技術について、
                   情報処理学会誌 Vol.47 No.4、2006
24)人工知能学会編、人工知能事典、共立出版、2006
25)日本情報処理開発協会編、情報化白書 2005、コンピュータ・エイジ社、2005
26)伊東乾、東大式 絶対情報学、講談社、2006
27)新井康充、脳のしくみ、日本実業出版社、1998
28)久野崇監修、脳を知る、秀潤社、2000
29)リタ・カーター著、養老孟司監修、藤井留美訳、脳と心の地形図、原書房、2002
30)生田哲、脳の健康、講談社、2002
31)苧阪直行、心と脳の科学、岩波書店、2004
32)茂木健一郎、田谷文彦、脳とコンピュータはどう違うか、講談社、2003
33)水越伸、ディジタル・メディア社会、岩波書店、2002
34)伊藤守、西垣通、正村俊之編、パラダイムとしての社会情報学、
                                   早稲田大学出版部、2003
35)田中一編、社会情報学、培風館、2001
36)山内祐平、ディジタル社会のリテラシー、岩波書店、2003
37)竹内薫、99.9%は仮説 思いこみで判断しないための考え方、光文社、2006
38)情報処理学会編、自然言語による情報アクセス技術、
                   情報処理学会誌 Vol.45 No.6、2004
39)情報処理学会編、自然言語の高度化による知的生産性の向上、
                   情報処理学会誌 Vol.44 No.10、2003
40)情報処理学会編、テキスト自動要約、情報処理学会誌 Vol.43 No.12、2002
41)斉藤孝、「記録・情報・知識」の世界 オントロジ・アルゴリズムの研究、
                      中央大学出版部、2004
42)溝口理一郎、人工知能学会編集、オントロジ工学、オーム社、2005
43)宮台真司他、ネット社会の未来像、春秋社、2006
44)佐々木利尚、グーグル Google、文芸春秋、2006
45)相戸浩志、情報セキュリティ技術の基本と仕組み、秀和システム、2004
46)岡田尊司、脳内汚染、文芸春秋、2006

「情報科学のあれこれ}のトップページへ
坪野あてのメールはこちら