HTML中からSNSアカウントのリンクを正規表現で取り出す


こんな感じでよいのだろうか。みんな大好きHTTPieを利用した場合。例として弊社。トップページのHTMLを取得し、その取得結果に対してgrep実行して抽出する。

☁  ~  http https://pepabo.com/ | grep -Eo "twitter\.com\/[a-zA-Z0-9_]+"
twitter.com/pepabo

慢性的なSQL能力と正規表現不足の人間なので何か想定抜けありそうなのだけれども上の様な形で書けばリンクでマークアップされていたりすればうまく取り出せるのではないだろうかとは思う。