会社の名寄せにグラフDB(Neo4j)を使ってみた話

こんにちはっ、海外事業部エンジニアのid:kawakuboxです。

先日行われた SpeeeKaigi で「会社名の名寄せにグラフDBを使ってみた話(wip)」を発表しました。

名寄せという作業は、最終的には人手に頼らざる所が少なからず残ってしまうと思います。

この最後の人の手による作業コストを軽減するために、何かしらの技術的な解決ができないかと思いました。

発表時点では構想段階で簡単な検証にとどまっていましたが、その後実際に補助ツールという位置づけで稼働させるまでいたりました。

このスライドはその発表当時のものになります。

SpeeeKaigi については、以前の記事をごらんください。 tech.speee.jp

トークテーマ

文字列ベースの名寄せ解決へのグラフDBを用いたアプローチ

結果の検証はどうすると良いのでしょう

人手による名寄せ作業の補助ツールという位置づけなので、検索結果に対しての100%の保証はしていないです。ただ、検索結果のなかから選ばれた名寄せ結果を学習するなどするのも良さそうに思います。

語順は考慮してますか？

単語に分解した時点で語順は無視しています。

ノード増えるとめちゃ計算量増えそうなんですが、クラスタ製品とかあるんでしょうか？

有償ではありますが、クラスタ構成、High Availableな構成などをサポートした Enterprise版が提供されています。

そもそも会社名マスタって当該国内で管理してないの？

ディレクター側で官民含めて調査してもらったのですが見つかっていないです。

まだ実装できていない、今後精度を上げるアイディアなどあればぜひ。

SpeeeKaigi時点では、スライドに載せたものがすべてアイディアはなかったのですが、今は単語の重要度などを考慮に入れることを考えています。

このスライドを発表してから「名寄せのkawakubo」という二つ名を頂戴しました。

桂さんに面白いテーマだったとコメントもらったりしたので、このテーマで臨んでよかったと思います。

また、実際に稼働させてサービスに貢献しているかどうかが選考において重要視されたので、次回は構想ではなく実績ベースで語り賞品ゲットしたいです。