テキストメディア特論「会社名」の抽出

170 Views

September 23, 23

#自然言語処理 #機械学習 #会社名の抽出 #Wikipediaの利用 #略称の取得 #構造化されていない文章からの取得 #関連研究の応用

スライド概要

Lamron

@lamrongol

スライド一覧

自然言語処理の、主にTwitterのトレンド解析を行なっていましたが、現在はBlueskyのトレンド解析等を行っています。作った（真似た）Chrome拡張：定期的にチェック( http://x.gd/JSivC )

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Blueskyでは何が話し合われているか。「情報技術は民主主義を生み、今は殺そうとしている」

bluesky

Lamron 3.9K

Blueskyの「今」がわかる！Bot

bluesky trend 話題分析 api

Lamron 1.8K

要約: Formal Approaches in Categorization: Chapter.5 Semantics without categorization

認知心理学カテゴリ仮説

Lamron 392

テキストメディア特論類似した「名前」の同一性の判定

自然言語処理機械学習

Lamron 156

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 840.7K

ZAZA株式会社_会社紹介

ZAZA株式会社 508.6K

各ページのテキスト

「会社名」の抽出 @lamrongol

 「～社」などの表現から会社名を判断する方法には限界がある     切れ目の判断が難しい（「・」は切れ目か否か、など）「オラクル」のように「～社」の形になってないものは社名と判断できない「東電」などの略称もあるあらかじめどのような会社名があるか登録しておけばよい

Wikipedia の利用  Wikipediaの特徴     各項目には多くの場合「千葉県の会社」などカテゴリが付与されている一定の規則に基づいた文書が大量にある人手による更新・訂正が行われるので正確性がある程度保証されている大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)

略称の取得    略称と正式名称の関連も取得できる例）「日立」というリンクから「日立製作所」につながっている場合「日立」＝「日立製作所」と関連付けられる

Wikipedia以外からの取得  Web上にはWikipedia以外の文書も大量にある    しかし、それらはWikipediaのように「企業」であることが明記されてるわけではないだが、量は圧倒的に多いのでなんとか活用したい周りの文章から「会社名」であることを判断できないか？  「〇〇は東証一部に上場した～」  「〇〇は1997年に創業した～」

構造化されてない文章からの会社名の取得   まず、Wikipediaなど構造化されているデータを「訓練データ」として用いる前後の単語から、会社名を判断する確率モデルを作る N(会社名∧創業） P(会社名|創業）=  N(創業）構造化されてないデータ（ブログの文章等）に対してこれを適用し、会社名を取り出す

関連研究の応用   Support Vector Machineを用いた日本語固有表現抽出[山田 et al] 前後の単語の素性（単語自体だけでなく、品詞の種類なども含む）ベクトルの集合に対してSVMを行い、学習させる

テキストメディア特論 「会社名」の抽出