こんばんわ! Keisukeです!
前回に引き続き, 以下に取り組みます!
目的
① Web上を徘徊させて自動で画像を取得し, 画像を解析させる
② Web上を徘徊させて自動で任意の論文を取得させる
読み取ったHTMLから①, ②の, 画像, またはファイルを探索するためにはアンカータグを読み取る必要があります!
アンカータグ
Web上に埋め込まれたリンク
HTML上では, <a > ←こんなやつ
今日の目標
HTML内の<a >を抽出する.
PythonのライブラリにHTMLのパーサーがありましたので利用したいと思います.
beautiful soup のインストール
pip inastall beautiful soup
以下コード
********************************
import bs4
import urllib.request
if __name__ == ‘__main__’:
URL = “https://www.google.co.jp”
html = urllib.request.urlopen(URL)
resources = []
b_soup = bs4.BeautifulSoup(html, “lxml”)
for a_tag in b_soup.find_all(“a”):
href_str = a_tag.get(“href”)
resources.append(href_str)
print(href_str)
********************************
実行結果
/intl/en/policies/terms/
今回は, グーグルの検索サイトのaタグを読み取りました.
以下で検索するとgoogleの利用規約に飛びます.
https://www.google.co.jp/intl/en/policies/terms/
[今日の達成]
・BeautifulSoupを使用した!
・aタグを抽出した!
[今日の未消化]
・BeautifulSoupの使い方をマスターする.