BLOG

 

235日のセブIT留学  成長日記「PythonでHTMLを読み込む!」 ( 64/235 days )

10 9月 2018, Posted by keisuke in IT留学, Python

こんばんわ! Keisukeです!

 

最近ずっと, 不便なことがあるな~と思ってることがあります…

・画像を解析する時, Webから画像をDLすること

・任意の論文を探してDLすること

 

上記の意外と時間がかかることをPythonにやらせてみたいと思います.

10月までの目標?くらいで取り組んでみたいと思います

① Web上を徘徊させて自動で画像を取得し, 画像を解析させる

② Web上を徘徊させて自動で任意の論文を取得させる

 

両方に取り組むためには, Webの構成を理解する必要がありそうです.

googleの検索画面をPythonで読み込んで,HTMLを表示してみたいと思います.

 

以下コード

********************************

import urllib.request

 

if __name__ == ‘__main__’:

url = “https://www.google.co.jp/”

request = urllib.request.urlopen(url)

html = request.read()

print(html)

********************************

 

実行結果

b'<!doctype html><html itemscope=”” itemtype=”http://schema.org/WebPage” lang=”en-PH”><head><meta content=”text/html; charset=UTF-8″ http-equiv=”Content-Type”><meta content=”/images/branding/googleg/1x/googleg_standard_color_128dp.png” itemprop=”image”><title>Google</title><script nonce=”0tcm3fNdmvT3R2Msui/NaA==”>(function(){window.google={kEI:\’Z1KoW4fJJIj4vAST4pmICw\’,kEXPI:

(※ 以下省略)

 

Web上のHTMLを読み取るのは非常に簡単なようです.

 

[今日の達成]

・PythonでHTMLを読み込めた!

[今日の未消化]

・読み込んだHTMLを理解する

 

Post a comment