日々の事柄に関する雑記帳。


ファイルの保存

Python

urllibURL handling module
import urllib.request

openurl = 'URLを指定'
savefile = 'ファイル名を指定'

urllib.request.urlretrieve(openurl, savefile)
urlretrieveはレガシー・インタフェイスとして、Python 2のモジュールurllibから移植された。
将来、廃止されるかもしれない。

urlretrieveを使わない方法
import urllib.request

openurl = 'URLを指定'
savefile = 'ファイル名を指定'

ret = urllib.request.urlopen(openurl).read()

with open(savefile, mode="wb") as f:
    f.write(ret)

R

downloaderDownload Files over HTTP and HTTPS
library(downloader)

openurl = "URLを指定"
savefile = "ファイル名を指定"

download(openurl, savefile)

スクレイピング

Python - Beautiful Soup

beautifulsoupPython library designed for quick turnaround projects like screen-scraping

from bs4 import BeautifulSoup
import urllib.request as req

openurl = 'URLを指定'

res = req.urlopen(openurl)
soup = BeautifulSoup(res, 'html.parser')
soup.titletitleタグを取得
soup.title.stringtitleタグの文字列を取得
soup.p一番最初のpタグを取得
soup.p['class']pタグに指定されたクラス名を取得
soup.find_all('a')すべてのaタグを取得
soup.find(id="link3")idにlink3と指定されたタグを取得
find()とfind_all()の違い
find_all()文書全体をスキャンする。listを返す。
find()最初に見つかったところまでスキャンする。見つかった情報を返す。
findとselectの違い
find_one()
find_all()
タグで検索する。
select_one()
select()
CSSセレクタで検索する。

Python - Requests

requestselegant and simple HTTP library
jsonJSON encoder and decoder
JSONの紹介
import requests
import json

myurl = 'URLを指定'

ret = request.get(myurl)
print(ret.text)
print(json.loads(ret.text))

R

XMLTools for Parsing and Generating XML Within R and S-Plus
rvestEasily Harvest (Scrape) Web Pages
XML
readHTMLTableRead Data From One Or More HTML Tables

library(XML)

myurl = "URLを指定"
readHTMLTable(myurl)
rvest
read_htmlParse An HTML Page.
html_nodesSelect Nodes From An HTML Document
html_node
html_textExtract Attributes, Text And Tag Name From Html.
html_attr
library(rvest)
library(stringr)

my_url = "URLを指定"
ret = read_html(myurl)
ret %>% html_node("h1") %>% html_text()
ret %>% html_nodes("a") %>% htrml_attr("href")

正規表現

Python

reRegular expression operations

import re

regex = '正規表現を指定' 
mystr = '検索対象文字列を指定'
print(re.match(regex, mystr))
import re

regex = '正規表現を指定'
mystr = '検索対象文字列を指定'
ret = re.compile(regex)
print(ret.match(mystr)

R

stringrSimple, Consistent Wrappers for Common String Operations
library(stringr)

fruit <- c("apple", "banana", "pear", "pinapple")
str_subset(fruit, "^a")
str_subset(fruit, "a$")

その他

R

nowThe Current Timelubridate
tidyverseに含まれる。
%>%Pipe operatorstringr
str_replaceReplace Matched Patterns In A String.
str_replace_all
tidyverseR packages for data science
タグ

管理人/副管理人のみ編集できます