BLOG

 

235日のセブIT留学  成長日記「Pythonでaタグを抽出!」 ( 65/235 days )

11 9月 2018, Posted by keisuke in Python, プログラミング, 未分類

こんばんわ! Keisukeです!

 

前回に引き続き, 以下に取り組みます!

 

 

目的

① Web上を徘徊させて自動で画像を取得し, 画像を解析させる

② Web上を徘徊させて自動で任意の論文を取得させる

 

 

 

読み取ったHTMLから①, ②の, 画像, またはファイルを探索するためにはアンカータグを読み取る必要があります!

 

 

アンカータグ

Web上に埋め込まれたリンク

HTML上では, <a > ←こんなやつ

 

 

 

今日の目標

HTML内の<a >を抽出する.

PythonのライブラリにHTMLのパーサーがありましたので利用したいと思います.

beautiful soup のインストール

pip inastall beautiful soup

 

 

以下コード

********************************

import bs4

import urllib.request

 

if __name__ == ‘__main__’:

URL = “https://www.google.co.jp”

html = urllib.request.urlopen(URL)

resources = []

b_soup = bs4.BeautifulSoup(html, “lxml”)

for a_tag in b_soup.find_all(“a”):

href_str = a_tag.get(“href”)

resources.append(href_str)

print(href_str)

********************************

実行結果

/intl/en/policies/terms/

 

 

今回は, グーグルの検索サイトのaタグを読み取りました.

 

 

以下で検索するとgoogleの利用規約に飛びます.

https://www.google.co.jp/intl/en/policies/terms/

 

 

[今日の達成]

・BeautifulSoupを使用した!

・aタグを抽出した!

[今日の未消化]

・BeautifulSoupの使い方をマスターする.

 

Post a comment