コンピュータと言語 石綿敏雄著 『岩波講座 日本語学 別巻 日本語研究の周辺』1978/03/28,所収

コンピュータと言語 石綿敏雄著 『岩波講座 日本語学 別巻 日本語研究の周辺』1978/03/28,所収
私の専門分野?

コンピュータの世界は、どんどん進んでいます。ここに書かれている課題も、どんどん解決されているように思います。でも、いまだに解決されていないことも多く、コンピュータの発展そのものがその課題を解決しないまま進んでいるような気がします。コンピュータを使うだけの人には「どんどん便利になっている」と思えるかもしれませんが、その反面でその原理を知る人は少なくなっているのではないでしょうか。

著者は、コンピュータの黎明期から携わっているようで、その苦労と自信が溢れている文章です。

文字体系の複数性

言語が多様であるように、文字がある文化にはそれぞれの文字体系があります。アルファベットだけをとっても26文字(大文字と小文字で52文字)+記号だけじゃなくて、ドイツ語やフランス語などでのウムラウトやアクサンなどの記号があります。ギリシア文字やキリル文字もあります。コンピュータがつくられたアメリカが使っていたアルファベット26文字+数字や記号は「1バイト(=8ビット)」つまり256個で表現できます。例えば「0(ゼロ)」は「48番」、「A」は「65番」のように割り当てられます。

コンピュータの普及とともに多言語(多文字)に対応しなくてはならなくなりました。もし、日本語(漢字、ひらがな、カタカナ)に対応していなかったら、日本でこんなにコンピュータが普及することはなかったでしょう。ところが漢字はたくさんあります。小学校で1,026文字が必修です。漢字全体では10万字ともいわれています(Wikipedia『漢字』)。そこで日本では、JIS(日本産業規格、2019年までは日本工業規格)でいくつかのコードを決めています(JISコードやShift_JISコード)。

その他にISO(国際標準化機構)が決めたものや、EUC、UTF(これらもそれぞれいくつかある)などいくつもあります。さらに、パソコン(OS)ごとに別の文字体系があったり、スマホ(携帯電話)の種類ごとの規格もあります。さらに、ソフトごとに独自の文字体系を採用していることもあります(例えば数式表示のための文字とか)。

同じ文字でも文字コードによって別の番号が割り当てられていますから、同じ番号でも文字体系が違えば別の表示がされてしまいます。いわゆる「文字化け」です。表示だけでなく、コンピュータの重要な機能である「検索」にも、複数の文字体系は障害となります。「が」という文字の表示方法には二種類あります。「が」一文字と、「か」+「゛(濁点)」との二種類です(入力方法も二種類以上あります)。検索というのは文字につけられた番号が同じかどうかを調べます(文字の「見た目」を比較するのではありません)。文字に付けらてている番号が違うのですから、検索に引っかかったり引っかからなかったりします。

国際基準では、文字コード(番号)を各国に配るのですが、日本は「〜番から〜番まで」という感じです。すると、漢字を使っている国々(日本、中国、朝鮮、など)にはそれぞれ別の番号が割り振られますから、各国で共通する漢字に別の番号が振られる可能性があります。

さらに「変体仮名」や「異字体」、さらには「誤字」まで、文字を完全にコード化(デジタル化)することは不可能でしょう。

一つの文字に、一つの番号をつけること、番号を統一することは、コンピュータを操作するのに有効です。均質化は支配のためにとても便利なのです。生徒が同じ制服を着ること、同じことばを話すこと。被支配者の「平等」は支配者にとって便利な道具として必要なのです。

文字の表示

コンピュータでは、文字は番号(デジタルデータ)でやり取りや保存がされます。そして、その番号に相当する文字を画面に表示します。同じ番号に対する別のフォント(明朝体だとかゴシック体だとか)を用意すれば、同じ文章を様々な字体で表示することができます。

文字を表示する方法はいくつかあります。最も古くから使われているのは「ビットマップフォント」です。パソコンやスマホの画面は「点」でできていますから、最終的にはすべてビットマップ表示されますが、データの形式として「タテ何ドット目、横何ドット目は黒(on)、隣は白(off)」と全ての点を指定するものです。もう一つは「ベクトルフォント」で、文字を構成する線(点の集まり)を位置と方向で表すものです。「ここから始まって、こういう方向に(例えばカーブ)伸びる」のように指定します。これだと、いくら拡大してもスムースな線となります。

さらに文字を「画像」としてやり取りすることもあります。これだと無限の文字を表示することが可能ですが、データ量が厖大になる上に「検索」が難しくなります。つまり、デジタルとしての有用性(便利さ)が著しく損なわれます。

検索

検索は文字の番号の有無を調べるのですから、簡単なようです。そのスピードは「データの大きさ」と「アルゴリズム」で決まります。大きなデータ(データベース)では当然検索が遅くなります。そこで、データの保存時に検索しやすくします。たとえば番号の小さな順に保存しておけばその番号を見つけやすいのですが、データを追加するたびに並べ替えをするのでは、保存に時間がかかってしまいます(そして、ディスクなどの保存媒体は書き込み・書き換えが読み込みよりも数倍時間がかかります)。データそのものを書き換えるのではなく、データそれぞれに「インデックス」をつけて、それを操作する方法もあります。紙の辞書にも「索引」がありますよね。その他、よく検索される項目を上位に位置づける方法など、色んな方法があります。そのときに、検索エンジンを操作して、「見つけてほしい項目」を上位に上げることもできます。

Googleで何かを調べるとたくさんヒットします。もちろん見つからない項目もたくさんあるのですが、有名な?項目は、簡単に数千万件になります。今「総理大臣」で検索したら「約18,700,000件(0.56秒)」と出ました。多分それらのページには「総理大臣」という文字があるのでしょう。でも、それを確認することは不可能です。その中で実際にそのページに飛ぼうと思うのはせいぜい最初の十数件くらいじゃないですか(人や事柄によって違うとは思いますが)。

さて、検索文字列ですが、検索エンジンによって検索単語や表示内容に制限がありますし、その検索の方法もまちまちです。例えばたいていの検索エンジンでは「総理大臣 岸田 文雄」と「スペース」で区切ると「すべてを含むページ(and検索)」になります。なかには「どれかを含むページ(or検索)」のページもあります。変わったのでは、それらの文字の「どれか」を含むページを選ぶものもあります。そうすると厖大な検索結果がでますが、検索漏れは防げます。「あい」と「ああいいあい」で同じページがヒットしたりします。「アイ」で同じページがヒットすることはよくあります。入力間違いや思い違いもありますので、データ件数が少なければ、そういう「曖昧さ」も役に立つことがあります。

文章の処理

検索は、コンピュータに「問いかけ」てコンピュータが「答える」というものです。「総理大臣って何?」って聞くと、「ちょっと待ってください、それは〜」と考えて、自分の記憶(データ)を辿って答えているように思えてしまいます。そうすると次には、「今の総理大臣を教えて」と入力したときに、「それは、岸田文雄さんです。岸田さんは、令和3年(2021年910月4日から日本の総理大臣です。昭和32年7月29日生れ、出身地は〜」と答えて欲しくなります。そうすると入力した日本語の構造を分析しなければなりません。日本語はアルファベットと違って、単語が区切られていません。そこで前記の文章を「今・の・総理大臣・を・教え・て・(ください)」というように、区切るとともに、単語を追加しなければならないこともあります。「今」を「いま」と入力人もいるかも知れないし、「今日(こんにち)」や「現在」と入力する人もいるでしょう。「を教えて」の代わりに「は誰ですか」と入力しても、同じ結果が出ることが理想です。

ここですでに「「文章」は「文」でできていて、「文」は「単語」でできていて、「単語」は「文字」でできれいる」、という前提があります。ここで、西欧人と日本人の感覚のずれが見えてきます。「 now 」の「n」「o」「w」は「音」であって、(一般的には)意味はありませんが、「今」という漢字はそれ自体が意味をもっています。西欧人にとって、文章は「音のつながり」ですが、日本人には「意味のつながり」です。ことばは、もともと「音のつながり」です。だから、最近まで西洋においては「読む」ということは「音にする」ということでした。日本人だってそうなのですが、漢字が意味をもっているので、音にしなくても意味が分かるのです。

さて、次にそれらの単語に基づいて「意味」を考えなければならないのですが、そのときには「文法構造(文法解析)」が必要になります。それぞれの単語を「品詞」に分類したり、語尾の変化や語順が意味を作ります。これができれば、「自動翻訳」に近づきます。

入力

入力方法もいろいろあります。一番はじめは「線(コード)をつなぎ直す」という方法だと思います。その後に「紙テープ」「パンチカード」などがでてきますが、欧米には「タイプライター」という文化がありましたから、それが「キーボード」になりました。さらには「音声入力」や「画像入力」などもでてきます。

音声入力は「音声解析技術」が必要です。声は人ごとに違いますし、アクセントやイントネーションも違います。また、同じ人がつねに同じ声を発するとはかぎりません。キーボードなら、人が違っても、その人の体調が違っても入力されるデータは同じですが。音声入力と音声出力ができるようになると、コンピュータと会話ができることになります。

文章の創造、AI

ここまでくれば「AI」まであと一歩?う〜ん、そうでしょうか。AI(人工知能)ってなんでしょう。

記録されたデータを検索するだけじゃなく、新しい文章をつくらなくてはなりません。どうやって作るのか、私はどう作っているのかは知りません。一つ思考実験をしてみます。文字ベースの生成AIです。

まず、素材となる文章(文)を集めます。新しく入力してもいいのですが、ネットの世界には溢れんばかりの無数の文があります。それを集めます。ほとんどのサイトは「多くの人に読まれるため」に書かれているので、閲覧に制限はかかっていません。じゃんじゃん集めます。このとき、ページの信頼度で、文章に点数をつけておきます。政府(行政)が作成したサイトの文章は「100」、新聞などのマスコミが作成したものは「50」、ネット記事は「−30」、著者がわからないものは「−50」など。そのページを参照しているページ数を掛けます。閲覧数を加味することもできます。サイト(ページ)の作成年月日が新しいものはプラス、古いものはマイナス、など、条件はいくらでも付けられます。

質問文を解析します。品詞分解などです。そして、その単語が含まれているサイトの点数を上げます。

次に、各文を解析します。品詞に分解するとともに、それぞれの単語同士の結びつきの頻度を計算します。「犬・吠える」の結びつきは「猫・吠える」より強いはずです。これを単語どうし、文どうしで行い、それぞれを確率で計算します。このとき、「禁止ワード」や「おすすめワード」で、加算・減算します。「爆弾・製造方法」「麻薬・入手情報」「テロ・実行計画」などはマイナスし、「(商品名)・人気」とか「(料理名)・おいしい」とかをプラスにします(この「さじ加減」はどの段階でも行えます)。

さて、文章を作るのですが、いくつかの基本例を与えたほうが良いでしょう。「名詞・助詞・動詞」や「名詞・助詞・形容詞」などです。そこに「一緒」になっている確率の高い単語を挿入(代入)します。その文章の評価は、その単語が出てきたサイトの点数を掛けたものです。次に、できた文どうしの結びつきの確率を計算します。それぞれの単語の確率と、それが同時にでてきたサイトの確率(点数)を掛け合わせばいいのかな。

「そんなこんな」をやって、その文章の「正しさ(つまり点数・確率)」が一番高いものを質問者に提示します。ネットのデータはつねに更新(ほとんどは増加)されます。確率もつねに変動します。答える情報の行数によっても、質問文の単語の数によっても確率は変動します。たぶん、「ランダム変数(乱数)」も使ったほうが面白いですね。

実際にはもっともっと複雑な操作をしているんでしょうね。画像や音声でも、同じようなことができます。多量のデータを素にして、それぞれの色や音素の結びつきを計算します。そして、基本例(年令や性別など)に色や音の確率が高いものをあてはめていきます。ただ、これらは文章よりも「正解」が曖昧です。

テストは、「答えがわかっている質問文」を入力します。自分が想定した答えと違っていれば、「調整」する必要がありますが、一般の質問者は「答え」を知らないので、細かいことは気にしません(笑)。

コンピュータに思考(思想)や感情はあるか

これらの操作を行った文章は、結果的には現在の世界の「一般的」「ふつう」「常識的」「平均的」な文章になるはずです。でも、そうなっているのかどうかはわかりません。AI作成者の思いや、スポンサーに「忖度」しているかもしれません。検索をしていると、ほとんど関係ない商品が「おすすめ」で表示されたりします。よく考えてみると、前に何処かのショッピングサイトで検索した商品だったりします。その時は欲しくて検索したのですが、買わずに忘れていたものです。改めて提示されるとまた欲しくなってしまいます(笑)。私のIPアドレスから、以前の閲覧履歴が漏れているんでしょうね。検索エンジンでも、AI生成プログラムでも、同じことができます。つまり、「ほしい(欲しがると思われる)情報」を優先的に表示するということです。それは「一般的」「平均的」なものとはかけ離れています。

コンピュータに、思考や感情はあるのでしょうか。「1グラム」と入力すると「軽い」と答え、「1トン」と入力すると「重い」と応えるプログラムはとても簡単です。逆の答えをさせることも簡単です。パソコンに「感圧センサー」や「ジャイロセンサー」をつけて、殴ると「痛い!」と表示する(言わせる)プログラムも簡単です。「気持ちいい!」とか「もっと!」と答えさせることも簡単です。でも、それが「コンピュータの感情」ではないですよね。でも、感情をもっているように見えます。そう思えるのは、逆に人間関係が「コンピュータ的」になってきているせいかもしれません。

お人形と会話ができれば、今以上に愛着が湧くかもしれません。でも、会話ができなくてもお人形に愛着を持つことはできます。人間の形をしていなくても、単なる棒きれでも石ころでも、それに愛着を感じることはできます。子供の頃はそうじゃなかったですか。なんて豊かな心なんでしょう。

コンピュータはどんどん便利になっていきます。その便利さと引き換えに失うのが「子供の心のように豊かな人間関係」のような気がしてなりません。

コンピュータも、原子力も、ナイフも、「使い方」の問題なのかもしれません。でも、「どう使うのか」。それを決めるのは「こころ」だと思います。

目次

本論文の内容に言及することができなかったので、目次を挙げておきます。







[著者等]

石綿敏雄[wiki(JP)](いしわた としお、1928年6月17日 - )は、日本の言語学者。国語審議会委員、国立国語研究所名誉所員、茨城大学名誉教授。専門は国語学・言語学(特に対照言語学、計量国語学)


[]

シェアする

フォローする