はじめに
Arweaveプロジェクトは2017年にICOを行い(その際は「Archain」という名称でした)、以来継続的にコラムやリリースなど情報発信を続けてきています。
それらの情報の大部分が英語で発信されたものであるため、日本人に向け、少しずつ翻訳して紹介していきます(都合上、意訳を多く含みます。必ずリンクを張りますので可能なら原文も確認してみてください)。
Archainのセマンティックドリフトを測定する
2017年10月13日
セマンティックドリフト
従来、言語表現は、現実世界の概念と何らかの客観的な形で関連しているため、意味があると見なされてきました。しかし、近代言語学や記号論以降、言葉や表現は主観的なものであり、時間の経過とともに意味や意味解釈が漂うことが広く受け入れられています。このような言葉の意味や用法の時間的な変化を意味変化あるいは意味漂流といいます。
例えば、ある単語が以前の意味よりも広い意味を持つようになる意味的拡大(例えば、中世英語のbriddeは「小さな鳥」という意味だが、より広い意味のbirdになった)、あるいは中世英語のmeteや現代英語のmeatのように拡大の逆の意味的制限(semantic restriction)を受けることがあります。
意味の拡大は、もちろん言語学の主要な関心事です。しかし、その応用や使い方は、学問の枠をはるかに超えています。
ビジネス・マーケティング、ブランディング、社名などに関連する言葉の使用状況や解釈を追跡・グラフ化することで、これらの言葉や概念に対する一般の認識について斬新かつ貴重な定量的洞察を得ることができ、将来の一般の認識についての予測も可能です。
例えば、交通省のオートバイ啓蒙キャンペーン[1]では、オートバイ乗りの文化的再符号化(広義の大衆理解・認識)の確立が不可欠であったとされています。このような有用性だけでなく、企業ブランド素材の使用状況を予測することができれば、ネガティブな連想やネガティブな連想の予測を警告し、企業がネガティブな変化に早期に対処することができます。
履歴のリアルタイムストリームにアクセスすることで、Archainは文化的コーディング、セマンティックドリフトを分析・評価し、単語や表現の将来の認識について予測を立てるための理想的なプラットフォームを提供します。
セマンティックドリフトを測定するプラットフォームとしてのArchain
Archainは、分散型、永久的、暗号的に検証された情報のアーカイブです。ユーザーが歴史的に重要、価値がある、または何らかの形で保存する価値があると判断した情報を厳選し、ライブフィードとして提供します。データは、シャード化されたブロックチェーン(ブロックウィーブ)[2]に保存されます。これは、ユーザーが保存を希望する情報を含むブロックの暗号化された連鎖です。ブロックが採掘されると、そのトランザクション内のデータが利用可能になります。
このように過去の情報にリアルタイムにアクセスすることで、ブロックに格納されたデータから歴史をリアルタイムに解釈・分析することが可能になるのです。
Application Developer Toolkitで構築されたArchainモニターアプリケーションは、このようにデータにアクセスするためのわかりやすい手段を提供するでしょう。簡単なモニターの作り方のビデオチュートリアルは、私たちのユーチューブチャンネルで見ることができます。
ある単語の変化が独立しており、他の単語の変化に影響されないことを考えると、意味ドリフトの測定は、意味ドリフトのモデル化と予測を行うためにマルコフ連鎖を使用するための最有力候補であるように思われます。
数学的概要
解析を行うには、まず、当該表現をワードクラウドに変換する必要があります。ワードクラウドとは、その表現に関連する意味合いや表現を、いくつかのブロックに分けて生成したアイテムの集合です。
例えば、「車」という単語に対する小さなワードクラウドは、{`wheels', `engine', `fast', `polluting'} のようなものになります。クラウド内の単語には、例えば「wheels」のような肯定的・否定的な関連性のない単語と、肯定的・否定的な関連性を持つ可能性のある単語が含まれていることに注意する必要があります。例を挙げるなら、`fast', `polluting' などです。
意味的なワードクラウドを生成するためのアルゴリズムは数多く存在します。
一般的には、テキストを解析してトークン化し、「a」や「the」などの一般的な単語を削除した後、文中の共起性などの何らかの要因によって単語に重みをつけてグループ化します。
Richard Stallmanのwikipedia記事から生成されたFig. 1のセマンティックワードクラウドの生成に使われたアルゴリズムの概要は、この論文[3]で紹介されています。
ここで、Blockweave上のブロックに対する離散時間マルコフ連鎖を定義することができます。
P は遷移確率の行列(遷移行列)、つまり、ある単語がブロック織りの過去のデータに基づいて次のブロックのワードクラウドで取り上げられる確率の行列です。一般的に、次のような形になります。
w₀からwnは単語フィールドのメンバーシップを表す2値、wp₀ⁱ⁺₁₁ はwp₀ⁱ⁺₁に続くw₀の間隔[0,1]における確率です。この定義を用いると,次のブロックの内容を予測することができます。
新しいブロックがリリースされると、新しいワードクラウドと遷移行列とともに、マルコフ連鎖が再構築されます。
適切に配置された織物から始めて、新しいブロックが採掘されるたびに計算を実行するリアルタイムモニターアプリを持つことで、ユーザーは目的の用語の意味的なワードクラウドを長期にわたって追跡し、ワードクラウドと遷移行列を比較して傾向を検出し、マークフチェーンの予測能力を利用することができるようになるのです。
結論
この記事では、マルコフ連鎖のアプローチを実装したリアルタイムArchain ADTモニターアプリケーションを使用して、セマンティックドリフトを追跡する方法を紹介しました。このようなアプリケーションは、時間の経過とともに傾向を検出し、ある程度の予測能力を提供します。私たちはユースケースのサンプルを提示し、ユースケースの問題を解決するためにArchainを使用することの利点を説明しました。
このモデルと実装は、まだ比較的素朴なものです。より良い実装はブロックの意味的なワードクラウドの表現として多次元行列を使うかもしれません - 図1に見られるように、重要度や文の共変動を利用します。
これにより、より多くの情報を持つ、より良い状態の記述を提供することができる。意味ドリフトの追跡は、ブロックウィーブ技術が有効であることを証明する多くのアプリケーションの一つに過ぎませんが、将来的に実を結ぶ可能性が十分にあるアイデアを含んでいます。
参考文献
[1] サインサラダ ケーススタディ DfT 'Think! Biker」、http://www.signsalad.com/semiotics-explained/case-studies/case-studies-dft/
[2] Archain: An Open, Irrevocable, Unforgeable and Uncensorable Archive for the Internet, S Williams, W Jones, https://www.archain.org/whitepaper.pdf
[3] 意味のある言葉のクラウド表現: 硬度と近似アルゴリズム, Barth et al., https://arxiv.org/abs/1311.4778