少し前に、河野デジタル相がマイナンバーカードをめぐるトラブルへの対策を述べる中で、将来的に住所の表記ゆれにAIを使う構造があることを明かしました。が、しかしこれが世論を大きく騒がせました。というのも、、、
AIなんか使わなくてもExcelでしかも2時間でできるって。
という世論のざわめきがあったからです。
では、河野相の「住所の表記ゆれ」って何でしょうか?その一例として挙げたのが、番地の表記です。
“『港区赤坂一丁目2の3』と書く人もいれば『港区赤坂1の2の3』と書く人もいる」「『1の2の3』を半角で入れる人も入れば全角で入れる人もいるし、ハイフンで『1-』って入れる人もいる」”
その上で、「そういうところはAIで表記ゆれの判断をするみたいなことが、将来的にはAIの技術を使えばあり得るかもしれない」と述べたのでした。
日本の表記ゆれが原因で本人と住所の紐付けができず、結果トラブルへ繋がってしまうということが頻発しているようです。
日本の住所例
◇表記ゆれ
東京都千代田区1丁目1番1号、東京都千代田区1-1-1
◇漢数字、アラビア数字、全角半角
10番地、10番地、十番地、一〇番地
◇都道府県、郡の省略
◇ハイフンの種類
◇旧字体
◇送り仮名
関ヶ原、関ケ原、関が原
◇京都の通り名
○○通△△下る etc...
実際、エクセルでやるとなると"2時間で完璧に"できるのでしょうか?おそらく、そんな簡単な話では無いと思っています。
というのも上記のように表記ゆれが奥深いので、Excelの置換だけでは対応しきれないのではないでしょうか。
というわけでAIに聞いてみた ~ 聞いた先はChatGPT ~
ここでChatGPTは住所が同一かどうかを判断するための一般的な方法の例をいくつか挙げてきますが、長くなるので省略します。つまり「了解!」と言ってくれています。
Q1
漢字、全角数字、ハイフン、スペース↓
Q1. A
正解。同一であると判断してくれました。ちょっと簡単でしたか?
Q2
漢字、全角数字、ハイフン↓
Q2. A
正解。同一であると判断してくれました。
Q3
漢字、カタカナ、全半角↓
Q3.A
正解。同一と判断してくれました。
Q4
半角英数字、漢字、カタカナ↓
Q4.A
正解。同一と判断してくれました。それにしてもコメントが的確です。
Q5
半角カタカナ、ひらがな、全半角英数字、漢字↓
Q5.A
正解。同一と判断してくれました。AIの凄さを実感してきました。
Q6
では最後、日本人なら知らない人はいない、こちらは。↓
Q6.A
Amazing! お見事です。
但し、「東京都千代田区千代田1-1」で質問した際ははっきりとした答えはくれませんでした。聞き方にもよるのかもしれない。
上記実験から、河野相の言う通り、AIで住所の表記ゆれを改善することに希望が持てます。
今回実験に使用したChatGPTについて過去にブログを書いたので、興味のある方はコチラからどうぞ。
そしてもちろん、表記ゆれの問題は日本だけではありません。特に漢字圏は繁体字(元々使われていた字体)、簡体字(偏-へん-や旁-つくり-が簡略化され画数が少ない字体)があるので表記ゆれはありそうです。が、日本はひらがな、カタカナ、漢字、と3種類の文字を使いこなしているので、他とは比べることもなく難しいですよね。
次回もお楽しみに(^^)/